Meta Unleashes Llama API در حال اجرا 18 برابر سریعتر از Openai: مشارکت Cerebras 2600 توکن در ثانیه ارائه می دهد
A benchmark chart shows Cerebras processing Llama 4 at 2,648 tokens per second, dramatically outpacing competitors SambaNova (747), Groq (600) and GPU-based services from Google and others — explaining Meta’s hardware choice for its new API. (Credit: Cerebras)

Meta Unleashes Llama API در حال اجرا 18 برابر سریعتر از Openai: مشارکت Cerebras 2600 توکن در ثانیه ارائه می دهد

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


متا امروز از همکاری با سیستم های Cerebras برای تأمین قدرت API جدید Llama خود خبر داد و به توسعه دهندگان دسترسی به سرعت استنتاج تا 18 برابر سریعتر از راه حل های سنتی مبتنی بر GPU را ارائه می دهد.

این اطلاعیه ، که در کنفرانس افتتاحیه توسعه دهنده Llamacon Meta در Menlo Park انجام شده است ، این شرکت را برای رقابت مستقیم با Openai ، Anthropic و Google در بازار خدمات استنتاج AI که به سرعت در حال رشد است ، قرار می دهد ، جایی که توسعه دهندگان برای تأمین نیروهای خود ، توکن ها را خریداری می کنند.

جولی شین چوی ، مدیر ارشد بازاریابی در Cerebras ، در طی یک جلسه توجیهی مطبوعاتی گفت: “متا Cerebras را برای همکاری برای ارائه استنباط فوق العاده سریع مورد نیاز برای خدمت به توسعه دهندگان از طریق API جدید Llama خود انتخاب کرده است.” “ما در Cerebras واقعاً بسیار هیجان زده هستیم که اولین مشارکت CSP Hyperscaler خود را برای ارائه استنباط فوق العاده سریع به همه توسعه دهندگان اعلام کنیم.”

این مشارکت نشانگر ورود رسمی متا به تجارت محاسبات هوش مصنوعی است و مدل های محبوب منبع باز Llama خود را به یک سرویس تجاری تبدیل می کند. در حالی که مدل های Llama متا بیش از یک میلیارد بار بارگیری انباشته شده است ، تاکنون این شرکت زیرساخت ابری شخص اول را برای توسعه دهندگان برای ایجاد برنامه های کاربردی با آنها ارائه نداده است.

جیمز وانگ ، مدیر ارشد Cerebras گفت: “این بسیار هیجان انگیز است ، حتی بدون صحبت کردن در مورد مغزی به طور خاص.” “Openai ، Anthropic ، Google – آنها یک تجارت هوش مصنوعی کاملاً جدید را از ابتدا ایجاد کرده اند ، که تجارت استنتاج هوش مصنوعی است. توسعه دهندگان که در حال ساخت برنامه های AI هستند ، توسط میلیارد ها نفر ، توسط میلیارد ها دلار خریداری می کنند.

یک نمودار معیار نشان می دهد که Llama 4 را در 2،648 نشانه در ثانیه پردازش می کند ، به طرز چشمگیری از رقبا Sambanova (747) ، Groq (600) و خدمات مبتنی بر GPU از Google و دیگران-توضیح می دهد که انتخاب سخت افزار متا برای API جدید خود را توضیح می دهد. (اعتبار: مغزی)

شکستن سد سرعت: چگونه Cerebras Superchcharges مدل های Llama

آنچه پیشنهاد متا را از هم جدا می کند ، افزایش سرعت چشمگیر ارائه شده توسط تراشه های تخصصی هوش مصنوعی Cerebras است. طبق معیارهای تجزیه و تحلیل مصنوعی ، سیستم Cerebras بیش از 2600 نشانه در ثانیه برای Llama 4 Scout ارائه می دهد ، در حالی که تقریباً 130 نشانه در ثانیه برای Chatgpt و حدود 25 نشانه در ثانیه برای Deepseek است.

وانگ توضیح داد: “اگر شما فقط به صورت API-to-API ، جمینی و GPT مقایسه می کنید ، همه آنها مدل های عالی هستند ، اما همه آنها با سرعت GPU اجرا می شوند ، که تقریباً حدود 100 نشانه در ثانیه است.” “و 100 نشانه در هر ثانیه برای گپ خوب است ، اما استدلال بسیار کند است. برای مأمورین بسیار کند است. و مردم امروز با این کار دست و پنجه نرم می کنند.”

این مزیت سرعت دسته های کاملاً جدیدی از برنامه های کاربردی را که قبلاً غیر عملی بودند ، امکان پذیر می کند ، از جمله عوامل زمان واقعی ، سیستم های صوتی کم تحرک مکالمه ، تولید کد تعاملی و استدلال فوری چند مرحله ای-همه اینها نیاز به زنجیره ای از تماس های مدل بزرگ زبان بزرگ دارند که اکنون می توانند در ثانیه ها و نه دقیقه به اتمام برسند.

API Llama نشان دهنده تغییر قابل توجهی در استراتژی هوش مصنوعی متا است ، و در درجه اول ارائه دهنده مدل به تبدیل شدن به یک شرکت زیرساخت کامل AI است. با ارائه خدمات API ، متا ضمن حفظ تعهد خود به مدل های باز ، از سرمایه گذاری های هوش مصنوعی خود در حال ایجاد جریان درآمد است.

وانگ در این کنفرانس مطبوعاتی خاطرنشان کرد: “متا اکنون در حال فروش نشانه های فروش است و برای نوع اکوسیستم هوش مصنوعی آمریکایی بسیار عالی است.” “آنها چیزهای زیادی را به میز می آورند.”

API ابزارهایی را برای تنظیم دقیق و ارزیابی ارائه می دهد ، با شروع مدل Llama 3.3 8B ، به توسعه دهندگان این امکان را می دهد تا داده ها را تولید کنند ، روی آن آموزش دهند و کیفیت مدل های سفارشی خود را آزمایش کنند. متا تأکید می کند که از داده های مشتری برای آموزش مدل های خاص خود استفاده نمی کند ، و مدل های ساخته شده با استفاده از API Llama می توانند به میزبان های دیگر منتقل شوند – یک تمایز واضح از رویکردهای بسته تر برخی از رقبا.

Cerebras سرویس جدید متا را از طریق شبکه مراکز داده خود واقع در سراسر آمریکای شمالی ، از جمله امکانات در دالاس ، اوکلاهما ، مینسوتا ، مونترال و کالیفرنیا ، تأمین می کند.

چوی توضیح داد: “تمام مراکز داده ما که استنباط می کنند در این زمان در آمریکای شمالی هستند.” “ما با ظرفیت کامل مغزی متا خدمت خواهیم کرد. حجم کار در تمام این مراکز داده مختلف متعادل خواهد شد.”

آرایش تجارت از آنچه چوی به عنوان “ارائه دهنده محاسبات کلاسیک به یک HyperScaler” توصیف کرده است ، مشابه نحوه ارائه NVIDIA سخت افزار برای ارائه دهندگان اصلی ابر. وی گفت: “آنها در حال رزرو بلوک های محاسبات ما هستند که می توانند به جمعیت توسعه دهنده خود خدمت کنند.”

فراتر از Cerebras ، متا همچنین از همکاری با Groq برای ارائه گزینه های استنباط سریع خبر داده است و به توسعه دهندگان چندین گزینه با کارایی بالا فراتر از استنتاج سنتی مبتنی بر GPU می دهد.

ورود متا به بازار API استنتاج با معیارهای عملکرد برتر می تواند به طور بالقوه دستور تعیین شده تحت سلطه OpenAI ، Google و Anthropic را مختل کند. متا با ترکیب محبوبیت مدلهای منبع باز خود با قابلیت های استنباط بسیار سریعتر ، خود را به عنوان یک رقیب قدرتمند در فضای تجاری هوش مصنوعی قرار می دهد.

براساس مطالب ارائه Cerebras ، “متا با 3 میلیارد کاربر ، دیتاسنرهای در مقیاس بیش از حد و یک اکوسیستم بزرگ توسعه دهنده در موقعیتی منحصر به فرد قرار دارد.” ادغام فناوری Cerebras “به Meta Leapfrog Openai و Google در عملکرد تقریباً 20 برابر کمک می کند.”

برای Cerebras ، این مشارکت نشان دهنده یک نقطه عطف مهم و اعتبارسنجی رویکرد تخصصی سخت افزار هوش مصنوعی خود است. وانگ گفت: “ما سالهاست که این موتور در مقیاس ویفر را می سازیم ، و همیشه می دانستیم که درجه اول فناوری است ، اما در نهایت باید به عنوان بخشی از ابر ابرقدرت شخص دیگری به پایان برسد. این هدف نهایی از منظر استراتژی تجاری بود و ما در نهایت به آن نقطه عطف رسیده ایم.”

API Llama در حال حاضر به عنوان پیش نمایش محدود در دسترس است و متا در هفته ها و ماه های آینده برنامه ریزی گسترده تری را انجام می دهد. توسعه دهندگان علاقمند به دسترسی به استنتاج فوق العاده سریع Llama 4 می توانند با انتخاب Cerebras از گزینه های مدل در API Llama ، دسترسی زودهنگام را درخواست کنند.

وانگ توضیح داد: “اگر شما یک توسعه دهنده را تصور می کنید که چیزی در مورد Cerebras نمی داند ، زیرا ما یک شرکت نسبتاً کوچک هستیم ، آنها فقط می توانند روی دو دکمه روی نرم افزار استاندارد SDK متا کلیک کنند ، یک کلید API تولید کنند ، پرچم Cerebras را انتخاب کنند ، و سپس همه ناگهان ، نشانه های آنها بر روی یک موتور غول پیکر در مقیاس ویفر پردازش می شوند.” “این نوع که ما در انتهای اکوسیستم کل توسعه دهنده متا قرار داریم ، برای ما فوق العاده است.”

انتخاب متا از سیلیکون تخصصی چیز عمیقی را نشان می دهد: در مرحله بعدی هوش مصنوعی ، این فقط چیزی نیست که مدل های شما می دانند ، بلکه چقدر سریع می توانند آن را فکر کنند. در این آینده ، سرعت فقط یک ویژگی نیست – این تمام نکته است.