Deepseek Jolts AI صنعت: چرا جهش بعدی AI ممکن است از داده های بیشتری حاصل نشود ، اما در استنتاج بیشتر محاسبه می شود
Deepseek Jolts AI صنعت: چرا جهش بعدی AI ممکن است از داده های بیشتری حاصل نشود ، اما در استنتاج بیشتر محاسبه می شود

Deepseek Jolts AI صنعت: چرا جهش بعدی AI ممکن است از داده های بیشتری حاصل نشود ، اما در استنتاج بیشتر محاسبه می شود

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


چشم انداز هوش مصنوعی با سرعت زیادی در حال تکامل است و تحولات اخیر پارادایم های ایجاد شده را به چالش می کشد. در اوایل سال 2025 ، آزمایشگاه AI چینی Deepseek از مدل جدیدی رونمایی کرد که موج های شوک را از طریق صنعت هوش مصنوعی ارسال کرده و منجر به افت 17 درصدی سهام NVIDIA به همراه سایر سهام مربوط به تقاضای مرکز داده هوش مصنوعی شد. این واکنش بازار به طور گسترده ای از توانایی ظاهری Deepseek در ارائه مدلهای با کارایی بالا در کسری از هزینه رقبا در ایالات متحده ناشی می شود و بحث در مورد پیامدهای مراکز داده هوش مصنوعی را برانگیخت.

برای متناسب سازی اختلال در Deepseek ، ما فکر می کنیم مفید است که یک تغییر گسترده تر در منظره هوش مصنوعی را که توسط کمبود داده های آموزش اضافی هدایت می شود ، در نظر بگیرید. از آنجا که آزمایشگاههای مهم هوش مصنوعی اکنون در حال حاضر مدل های خود را در مورد بسیاری از داده های عمومی موجود در اینترنت آموزش داده اند ، کمبود داده ها در حال کند شدن پیشرفت های بیشتر در پیش از آموزش است. در نتیجه ، ارائه دهندگان مدل به دنبال “محاسبه زمان آزمایش” (TTC) هستند که در آن مدل های استدلال (مانند سری مدل های “O” باز) “قبل از پاسخ دادن به یک سؤال در زمان استنتاج ،” فکر کنید “به عنوان یک روش جایگزین برای بهبود عملکرد کلی مدل. تفکر فعلی این است که TTC ممکن است پیشرفت های مقیاس پذیر شبیه به مواردی را نشان دهد که زمانی پیش از عقب نشینی پیش می روند ، به طور بالقوه موج بعدی پیشرفت های AI تحول را قادر می سازد.

این تحولات دو تغییر مهم را نشان می دهد: اول ، آزمایشگاه هایی که با بودجه های کوچکتر (گزارش شده) کار می کنند ، اکنون قادر به انتشار مدلهای پیشرفته هستند. تغییر دوم تمرکز روی TTC به عنوان محرک بالقوه بعدی پیشرفت AI است. در زیر ما هر دو این روند و پیامدهای بالقوه برای چشم انداز رقابتی و بازار گسترده تر هوش مصنوعی را باز می کنیم.

پیامدهای صنعت هوش مصنوعی

ما معتقدیم که تغییر به سمت TTC و افزایش رقابت بین مدلهای استدلال ممکن است پیامدهای زیادی برای چشم انداز گسترده تر AI در سراسر سخت افزار ، سیستم عامل های ابری ، مدل های بنیادی و نرم افزار سازمانی داشته باشد.

1. سخت افزار (GPU ، تراشه های اختصاصی و زیرساخت های محاسبه)

  • از خوشه های آموزش عظیم گرفته تا سنبله های “زمان آزمایش” در صورت تقاضا: از نظر ما ، تغییر به سمت TTC ممکن است پیامدهایی برای نوع منابع سخت افزاری که شرکت های هوش مصنوعی به آن نیاز دارند و نحوه مدیریت آنها داشته باشد. شرکت های هوش مصنوعی به جای سرمایه گذاری در خوشه های GPU به طور فزاینده بزرگتر که به بارهای کاری آموزش داده می شوند ، ممکن است سرمایه گذاری خود را در قابلیت های استنتاج برای حمایت از نیازهای TTC افزایش دهند. در حالی که شرکت های هوش مصنوعی به احتمال زیاد هنوز هم به تعداد زیادی از GPU ها برای رسیدگی به بارهای کار استنباط نیاز دارند ، تفاوت بین بار کار آموزش و بارهای کار استنتاج ممکن است بر نحوه پیکربندی و استفاده این تراشه ها تأثیر بگذارد. به طور خاص ، از آنجا که بارهای کار استنباط تمایل به پویاتر (و “سنبله”) دارند ، برنامه ریزی ظرفیت ممکن است پیچیده تر از آنچه برای بار کاری آموزش دسته ای گرا است ، پیچیده تر شود.
  • افزایش سخت افزار بهینه شده استنباط: ما معتقدیم که تغییر تمرکز به سمت TTC احتمالاً فرصت هایی را برای سخت افزار AI جایگزین که در محاسبات زمان استنتاج کم تأخیر تخصص دارد ، افزایش می دهد. به عنوان مثال ، ما ممکن است تقاضای بیشتری برای گزینه های GPU مانند مدارهای یکپارچه خاص برنامه (ASIC) برای استنتاج مشاهده کنیم. از آنجا که دسترسی به TTC از ظرفیت آموزش مهمتر می شود ، تسلط بر GPU های هدف عمومی ، که برای آموزش و استنباط استفاده می شود ، ممکن است کاهش یابد. این تغییر می تواند به نفع ارائه دهندگان تخصصی تراشه استنتاج باشد.

2. سیستم عامل های ابر: Hyperscalers (AWS ، Azure ، GCP) و Cloud Compute

  • کیفیت خدمات (QoS) به یک تمایز دهنده اصلی تبدیل می شود: یکی از موضوعات جلوگیری از تصویب هوش مصنوعی در شرکت ، علاوه بر نگرانی های مربوط به دقت مدل ، غیرقابل اعتماد بودن API های استنتاج است. مشکلات مرتبط با استنباط API غیرقابل اعتماد شامل نوسان زمان پاسخ ، محدود کردن نرخ و مشکل در درخواست های همزمان و سازگاری با تغییرات نقطه پایانی API است. افزایش TTC ممکن است بیشتر این مشکلات را تشدید کند. در این شرایط ، یک ارائه دهنده ابری قادر به ارائه مدلهایی با اطمینان QoS است که از نظر ما این چالش ها را برطرف می کند ، مزیت قابل توجهی دارد.
  • افزایش هزینه ابر علیرغم افزایش بهره وری: به جای کاهش تقاضا برای سخت افزار هوش مصنوعی ، این امکان وجود دارد که رویکردهای کارآمدتر به آموزش و استنباط مدل زبان بزرگ (LLM) ممکن است از پارادوکس Jevons پیروی کند ، یک مشاهده تاریخی که در آن بهبود کارآیی باعث مصرف کلی بالاتر می شود. در این حالت ، مدل های استنباط کارآمد ممکن است توسعه دهندگان هوش مصنوعی بیشتری را به استفاده از مدلهای استدلال ترغیب کند ، که به نوبه خود باعث افزایش تقاضا برای محاسبات می شود. ما معتقدیم که پیشرفت های مدل اخیر ممکن است منجر به افزایش تقاضا برای محاسبات Cloud AI برای هر دو استنباط مدل و آموزش مدل کوچکتر و تخصصی شود.

3. ارائه دهندگان مدل بنیاد (Openai ، Anthropic ، Cohere ، Deepseek ، mistral)

  • تأثیر بر روی مدلهای از پیش آموزش دیده: اگر بازیکنان جدیدی مانند Deepseek بتوانند با بخشی از هزینه های گزارش شده با آزمایشگاه های Frontier AI رقابت کنند ، ممکن است مدل های اختصاصی از قبل آموزش دیده به عنوان یک خندق کمتر قابل دفاع شوند. ما همچنین می توانیم انتظار نوآوری های بیشتر در TTC را برای مدل های ترانسفورماتور داشته باشیم و همانطور که Deepseek نشان داده است ، این نوآوری ها می توانند از منابع خارج از آزمایشگاه های AI مستقر تر حاصل شوند.

4. پذیرش AI Enterprise و SaaS (لایه برنامه)

  • نگرانی های امنیتی و حریم خصوصی: با توجه به منشأ Deepseek در چین ، احتمالاً از دیدگاه امنیتی و حریم خصوصی ، بررسی های مداوم محصولات این شرکت را انجام می دهد. به طور خاص ، پیشنهادات API و Chatbot مستقر در این شرکت بعید است که توسط مشتریان شرکت AI در ایالات متحده ، کانادا یا سایر کشورهای غربی مورد استفاده قرار گیرد. بنا بر گزارش ها ، بسیاری از شرکت ها برای جلوگیری از استفاده از وب سایت و برنامه های Deepseek در حال حرکت هستند. ما انتظار داریم که مدل های Deepseek حتی در صورت میزبانی اشخاص ثالث در ایالات متحده و سایر مراکز داده غربی که ممکن است اتخاذ سازمانی مدل ها را محدود کند ، با بررسی دقیق روبرو شوند. محققان در حال حاضر به نمونه هایی از نگرانی های امنیتی پیرامون شکستن زندان ، تعصب و تولید محتوای مضر اشاره می کنند. با توجه به توجه مصرف کننده ، ما ممکن است شاهد آزمایش و ارزیابی مدل های Deepseek در شرکت باشیم ، اما بعید است که خریداران شرکت به دلیل این نگرانی ها از افراد متقاضی دور شوند.
  • تخصص عمودی به دست می آید: در گذشته ، برنامه های عمودی که از مدل های بنیادی استفاده می کنند ، عمدتاً بر ایجاد گردش کار طراحی شده برای نیازهای تجاری خاص متمرکز بودند. تکنیک هایی مانند نسل بازیابی-اوج (RAG) ، مسیریابی مدل ، فراخوانی عملکرد و نگهبان نقش مهمی در تطبیق مدل های تعمیم یافته برای این موارد استفاده تخصصی ایفا کرده اند. در حالی که این استراتژی ها منجر به موفقیت های قابل توجه شده اند ، نگرانی مداوم وجود داشته است که پیشرفت های چشمگیر در مدل های اساسی می تواند این برنامه ها را منسوخ کند. همانطور که سام آلتمن هشدار داد ، پیشرفت عمده ای در قابلیت های مدل می تواند نوآوری های لایه برنامه کاربردی را که به عنوان بسته های اطراف مدل های بنیادی ساخته می شوند ، “بخار کنید”.

با این حال ، اگر پیشرفت در محاسبات زمان قطار در واقع فلات باشد ، تهدید جابجایی سریع کاهش می یابد. در دنیایی که سود در عملکرد مدل از بهینه سازی TTC حاصل می شود ، ممکن است فرصت های جدید برای بازیکنان لایه برنامه باز شود. نوآوری در الگوریتم های پس از آموزش خاص دامنه-مانند بهینه سازی سریع ساختار یافته ، استراتژی های استدلال آگاهانه و تأخیر و تکنیک های نمونه گیری کارآمد-ممکن است پیشرفت های قابل توجهی در عمودی های هدفمند ایجاد کند.

هرگونه بهبود عملکرد به ویژه در زمینه مدل های استدلال متمرکز مانند GPT-4O OpenAi و Deepseek-R1 ، که اغلب اوقات پاسخ چند ثانیه ای را نشان می دهند ، بسیار مهم خواهد بود. در برنامه های کاربردی در زمان واقعی ، کاهش تأخیر و بهبود کیفیت استنتاج در یک دامنه معین می تواند یک مزیت رقابتی را فراهم کند. در نتیجه ، شرکت های لایه برنامه با تخصص دامنه ممکن است نقش مهمی در بهینه سازی راندمان استنباط و خروجی های تنظیم دقیق داشته باشند.

Deepseek تأکید در حال کاهش بر مقادیر فزاینده ای از پیش از ترساندن به عنوان تنها محرک کیفیت مدل است. در عوض ، توسعه بر اهمیت روزافزون TTC تأکید می کند. در حالی که اتخاذ مستقیم مدل های DeepSeek در برنامه های نرم افزاری سازمانی به دلیل بررسی مداوم نامشخص است ، تأثیر آنها بر پیشرفت رانندگی در سایر مدلهای موجود واضح تر می شود.

ما معتقدیم که پیشرفت های Deepseek باعث شده است که آزمایشگاه های AI ایجاد کنند تا تکنیک های مشابهی را در فرآیندهای مهندسی و تحقیقاتی خود بگنجانند و مزایای سخت افزاری موجود خود را تکمیل کنند. به نظر می رسد که کاهش در هزینه های مدل ، به نظر می رسد که در افزایش مصرف مدل نقش دارد و با اصول پارادوکس جونز هماهنگ است.

Pashootan Vaezipoor رهبری فنی در گرجی است.