پاسخ متا به Deepseek در اینجا است: Llama 4 با مدل های Long Context Scout و Maverick راه اندازی می شود ، و پارامتر 2T Behemoth در راه!

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


کل چشم انداز هوش مصنوعی در ژانویه سال 2025 پس از یک راه اندازی AI کمی شناخته شده AI چینی Deepseek (یک شرکت تابعه از شرکت تجزیه و تحلیل کمی مبتنی بر هنگ کنگ ، High-Flyer Capital Management) به عقب برگشت.

از آنجا که استفاده از Deepseek به سرعت در بین محققان و شرکت ها گسترش یافته است ، بنا بر گزارش ها ، متا با یادگیری اینکه این مدل جدید R1 برای کسری از هزینه های بسیاری از مدل های پیشرو دیگر آموزش داده شده است ، به حالت وحشت ارسال شده است ، اما آنها را به اندازه چند میلیون دلار – که برخی از رهبران تیم AI خود را پرداخت می کند ، جمع کرده است.

کل استراتژی AI تولید کننده متا تا زمانی که در این مرحله پیش بینی نشده بود که مدل های منبع باز بهترین کلاس را با نام تجاری خود “Llama” برای محققان و شرکت ها آزاد کنند تا بتوانند آزادانه بسازند (حداقل اگر کمتر از 700 میلیون کاربر ماهانه داشته باشند ، در آن مرحله قرار است با متا برای شرایط دارای مجوز ویژه تماس بگیرند).

با این حال ، عملکرد بسیار شگفت آور Deepseek R1 با بودجه بسیار کمتری گفته بود که رهبری شرکت را متزلزل کرده و به نوعی حسابداری را مجبور کرده است ، با آخرین نسخه Llama ، 3.3 ، که فقط یک ماه قبل در دسامبر 2024 منتشر شد اما در حال حاضر به دنبال منسوخ بود.

اکنون ما می دانیم که ثمرات آن حساب کاربری: امروز ، بنیانگذار متا و مدیر عامل شرکت مارک زاکربرگ به حساب اینستاگرام خود رفتند تا یک سری 4 مدل جدید Llama 4 را اعلام کند ، با دو پارامتر 400 میلیارد Llama 4 Maverick و Parameter Llama 4 Scout-امروز برای توسعه دهندگان در دسترس است تا توسعه دهندگان را بارگیری کنند و با استفاده از LLAMA Download و با استفاده از Lllama Fine-Tuning و Fine-Tuning را شروع کنند و با استفاده از LLAMAS و با استفاده از Llama Fine-Tuning and Fine-Tuning را بارگیری کنند

یک پارامتر عظیم 2 تریلیون Llama 4 Behemoth نیز امروز پیش نمایش می شود ، اگرچه پست وبلاگ متا در مورد نسخه ها گفت که هنوز هم آموزش دیده است ، و هیچ نشانه ای از زمان انتشار آن نداد. (یادآوری پارامترها به تنظیماتی که حاکم بر رفتار مدل است اشاره دارد و به طور کلی بیشتر به معنای یک مدل قدرتمندتر و پیچیده تر در اطراف مدل است.)

یکی از ویژگی های اصلی این مدل ها این است که همه آنها چند حالته هستند – آموزش دیده و بنابراین ، قادر به دریافت و تولید متن ، فیلم و تصاویر هستند (Hough Audio ذکر نشده است).

نکته دیگر اینکه آنها دارای پنجره های زمینه ای فوق العاده طولانی هستند – 1 میلیون نشانه برای Llama 4 Maverick و 10 میلیون برای Llama 4 Scout – که به ترتیب معادل 1500 و 15000 صفحه متن است ، به ترتیب ، همه این مدل می تواند در یک تعامل ورودی/خروجی واحد انجام شود. این بدان معناست که یک کاربر می تواند به صورت تئوری تا 7،500 صفحه از متن-از متن را بارگذاری یا چسباند و در ازای Llama 4 Scout ، که برای زمینه های متراکم اطلاعات مانند پزشکی ، علوم ، مهندسی ، ریاضیات ، ادبیات و غیره مفید خواهد بود ، آن را دریافت کرده یا چسباند.

در اینجا آنچه ما تاکنون در مورد این نسخه آموخته ایم آورده شده است:

همه چیز در مخلوط کردن

هر سه مدل از رویکرد معماری “مخلوط کنفرانس (MOE)” که در نسخه های مدل قبلی از OpenAi و MiStral محبوب شده اند ، استفاده می کنند ، که در اصل چندین مدل کوچکتر تخصصی (“متخصصان”) را در کارهای مختلف ، موضوعات و قالب های رسانه ای در یک مدل یکپارچه و یک مدل بزرگتر ترکیب می کند. گفته می شود که هر نسخه Llama 4 ترکیبی از 128 متخصص مختلف و کارآمدتر است زیرا فقط متخصص به یک کار خاص نیاز دارد ، به علاوه یک متخصص “مشترک” ، هر یک از این نشانه ها را به جای کل مدل که باید برای هر یک اجرا شود ، انجام می دهد.

همانطور که پست وبلاگ Llama 4 یادداشت می کند:

در نتیجه ، در حالی که تمام پارامترها در حافظه ذخیره می شوند ، فقط زیر مجموعه ای از پارامترهای کل هنگام ارائه این مدل ها فعال می شوند. این کار راندمان استنباط را با پایین آمدن هزینه های مدل خدمات و تأخیر بهبود می بخشد – Llama 4 Maverick را می توان در یک میزبان واحد (NVIDIA) H100 DGX برای استقرار آسان یا با استنتاج توزیع شده برای حداکثر کارایی اجرا کرد.

هر دو Scout و Maverick برای خود میزبانی در دسترس عموم هستند ، در حالی که هیچ API یا ردیف قیمت گذاری میزبان برای زیرساخت های رسمی متا اعلام نشده است. در عوض ، متا از طریق بارگیری باز و ادغام با متا AI در WhatsApp ، مسنجر ، اینستاگرام و وب بر توزیع تمرکز دارد.

متا هزینه استنباط Llama 4 Maverick را با 0.19 دلار به 0.49 دلار در هر 1 میلیون توکن (با استفاده از مخلوط 3: 1 از ورودی و خروجی) تخمین می زند. این امر باعث می شود که از نظر مدلهای اختصاصی مانند GPT-4O ، که تخمین زده می شود براساس معیارهای جامعه ، 4.38 دلار در هر میلیون دلار هزینه داشته باشد ، بسیار ارزان تر شود.

هر سه مدل Llama 4-به ویژه ماوریک و Behemoth-صریحاً برای استدلال ، برنامه نویسی و حل مسئله گام به گام طراحی شده اند-اگرچه به نظر نمی رسد که زنجیرهای فکر مدل های استدلال اختصاصی مانند سری OpenAi “O” را نشان دهند و نه DeepSeek R1.

درعوض ، آنها به نظر می رسد که به طور مستقیم با LLMS “کلاسیک” ، غیر فصلی و مدل های چندمادی مانند GPT-4O Openai و V3 Deepseek-به استثنای Llama 4 Behemoth ، رقابت کنند. از کار به نظر می رسد Deepseek R1 را تهدید می کند (بیشتر در این مورد در زیر!)

علاوه بر این ، برای Llama 4 ، متا خطوط لوله پس از آموزش سفارشی ساخته شده است که بر افزایش استدلال متمرکز شده است ، مانند:

  • از بین بردن بیش از 50 ٪ از “آسان” سریع در هنگام تنظیم دقیق.
  • اتخاذ یک حلقه یادگیری تقویت مداوم با سوابق به تدریج سخت تر.
  • با استفاده از نمونه گیری Pass@K و نمونه گیری برنامه درسی برای تقویت عملکرد در ریاضی ، منطق و برنامه نویسی.
  • اجرای METAP ، یک تکنیک جدید که به مهندسان اجازه می دهد تاپرپارامترها (مانند نرخ یادگیری در هر لایه) را بر روی مدل ها تنظیم کنند و ضمن حفظ رفتار مدل مورد نظر ، آنها را در سایر اندازه ها و انواع نشانه ها اعمال کنند.

METAP مورد توجه ویژه ای است زیرا می توان از آن استفاده کرد تا HyperParameters را روی مدل تنظیم کند و سپس بسیاری از انواع دیگر مدل ها را از آن خارج کند و باعث افزایش کارایی آموزش می شود.

به عنوان همکار VentureBeat و کارشناس LLM ، بن دیکسون ، تکنیک جدید Metap را تحت الشعاع قرار داد: “این می تواند باعث صرفه جویی در وقت و هزینه زیادی شود. این بدان معنی است که آنها به جای انجام آنها در مقیاس های بزرگ ، آزمایش هایی را روی مدل های کوچکتر انجام می دهند.”

این امر به ویژه در هنگام آموزش مدلهای به اندازه Behemoth ، که از 32K GPU و FP8 Precision استفاده می کند ، بسیار مهم است و به 390 TFLOPS/GPU بیش از 30 تریلیون توکن دست می یابد – بیشتر از دو برابر اطلاعات آموزش Llama 3.

به عبارت دیگر: محققان می توانند به طور گسترده ای به مدل بگویند که چگونه می خواهند آن را عمل کند ، و این را در نسخه بزرگتر و کوچکتر مدل و در اشکال مختلف رسانه اعمال می کند.

یک قدرتمند – اما هنوز نه در بیشترین قدرتمند – خانواده مدل

در فیلم اعلامیه خود در اینستاگرام (یک شرکت تابعه متا ، طبیعتاً) ، مدیرعامل متا ، مارک زاکربرگ گفت: “هدف این شرکت ساخت هوش مصنوعی پیشرو در جهان ، منبع باز آن است و آن را در دسترس جهانی قرار می دهد به گونه ای که همه در جهان از آن بهره مند می شوند … من مدتی گفتم که من فکر می کنم AI باز می شود که تبدیل به مدل های پیشرو و با Llama 4 شده است.

این جمله ای کاملاً با دقت بیان شده است ، همانطور که پست وبلاگ متا نامیده می شود Llama 4 Scout ، “بهترین مدل چند مدلی در جهان در کلاس خود و از همه مدل های Llama نسل قبلی قدرتمندتر است. “(تأکید من توسط من اضافه شده است).

به عبارت دیگر ، اینها مدل های بسیار قدرتمندی هستند ، در نزدیکی بالای پشته در مقایسه با دیگران در کلاس پارامتر خود ، اما لزوماً سوابق عملکرد جدیدی را تعیین نمی کنند. با این وجود ، متا علاقه داشت مدلهای خود را ضرب و شتم خانواده جدید Llama 4 خود ، از جمله آنها:

Llama 4 Behemoth

  • Outperforms GPT-4.5 ، Gemini 2.0 Pro و Claude Sonnet 3.7 ON:
    • MATH-500 (95.0)
    • الماس GPQA (73.7)
    • MMLU برای (82.2)

با 4 ماوریک تماس بگیرید

  • Flash GPT-4O و Gemini 2.0 در اکثر معیارهای استدلال چندمدی:
    • Chartqa ، Docvqa ، Mathvista ، MMMU
  • رقابتی با Deepseek v3.1 (پارامترهای 45.8b) ضمن استفاده از کمتر از نیمی از پارامترهای فعال (17b)
  • نمرات معیار:
    • Chartqa: 90.0 (در مقابل GPT-4O 85.7)
    • Docvqa: 94.4 (در مقابل 92.8)
    • MMLU برای: 80.5
  • مقرون به صرفه: 0.19 دلار-0.49 دلار در هر 1M TOKENS

با 4 پیشاهنگ تماس بگیرید

  • مدل هایی مانند Mistral 3.1 ، Gemini 2.0 Flash-Lite و Gemma 3 ON ON:
    • DOCVT: 94.4
    • MMLU برای: 74.3
    • Mathvista: 70.7
  • طول زمینه 10 متر توکن بی نظیر-ایده آل برای اسناد طولانی ، کد های کد یا تجزیه و تحلیل چند چرخش
  • برای استقرار کارآمد در یک پردازنده گرافیکی H100 طراحی شده است

اما بعد از این همه ، چگونه Llama 4 تا Deepseek جمع می شود؟

اما مطمئناً ، کلاس دیگری از مدل های استدلال سنگین مانند Deepseek R1 ، سری “O” Openai (مانند GPT-4O) ، Gemini 2.0 و Claude Sonnet وجود دارد.

با استفاده از مدل بالاترین پارامتر معیار-Llama 4 Behemoth-و مقایسه آن با نمودار انتشار Intial Deepseek R1 برای مدل های R1-32B و OpenAI O1 ، در اینجا نحوه جمع شدن Llama 4 Behemoth آورده شده است:

معیارLlama 4 BehemothDeepseek R1Openai O1-1217
ریاضی -50095.097.396.4
الماس GPQA73.771.575.7
mmlu82.290.891.8

چه چیزی می توانیم نتیجه بگیریم؟

  • Math-500: Llama 4 Behemoth کمی است عقب Deepseek R1 و Openai O1.
  • GPQA Diamond: Behemoth است جلوتر از Deepseek r1 ، اما پشت Openai O1.
  • MMLU: Behemoth هر دو را دنبال می کند ، اما هنوز هم از Gemini 2.0 Pro و GPT-4.5 بهتر است.

Takeaway: در حالی که Deepseek R1 و Openai O1 Edge Behemoth را در معیارهای زن و شوهر قرار می دهند ، Llama 4 Behemoth بسیار رقابتی است و در صدر یا در بالای صفحه اصلی استدلال در کلاس خود قرار دارد.

ایمنی و “تعصب” سیاسی کمتر

متا همچنین با معرفی ابزارهایی مانند Llama Guard ، Prompt Guard و Cybereceseval برای کمک به توسعه دهندگان در تشخیص ورودی/خروجی ناامن یا حرکات مخالف ، و اجرای آزمایشات تهاجمی مولد (GOAT) برای تیم خودکار ، بر تراز و ایمنی تأکید کرد.

این شرکت همچنین ادعا می کند که Llama 4 پیشرفت قابل توجهی در “تعصب سیاسی” نشان می دهد و می گوید “به طور خاص ، (LLM های پیشرو) از نظر تاریخی هنگام بحث در مورد مباحث سیاسی و اجتماعی ، به سمت چپ تکیه داده اند که Llama 4 در حیاط جناح راست بهتر عمل می کند … در حالی که با درگیری با زاکربرگ از رئیس جمهور جمهوریخواه ایالات متحده ، دونالد جی. ترامپ و حزب خود در پی انتخاب خود در ادامه.

جایی که لاما 4 تاکنون ایستاده است

مدل های Llama 4 Meta ، کارآیی ، باز بودن و عملکرد بالا را در کارهای چند حالته و استدلال جمع می کند.

با وجود Scout و Maverick که اکنون در دسترس عموم است و Behemoth به عنوان یک الگوی مدرن معلم پیش بینی شده است ، اکوسیستم Llama در موقعیتی قرار دارد که یک جایگزین رقابتی باز برای مدل های اختصاصی درجه یک از Openai ، Anthropic ، Deepseek و Google ارائه دهد.

این که آیا شما در حال ساختن دستیاران در مقیاس سازمانی ، خطوط لوله تحقیق AI یا ابزارهای تحلیلی طولانی با متن هستید ، Llama 4 گزینه های انعطاف پذیر و با کارایی بالا را با جهت گیری واضح به سمت طراحی استدلال ارائه می دهد.