برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
مدل های بزرگ زبان (LLM) به طور فزاینده ای قادر به استدلال پیچیده از طریق “مقیاس بندی زمان استنباط” هستند ، مجموعه ای از تکنیک هایی که منابع محاسباتی بیشتری را در طول استنتاج برای تولید پاسخ ها اختصاص می دهند. با این حال ، یک مطالعه جدید از تحقیقات مایکروسافت نشان می دهد که اثربخشی این روشهای مقیاس گذاری جهانی نیست. افزایش عملکرد در مدلهای مختلف ، وظایف و پیچیدگی های مشکل متفاوت است.
یافته اصلی این است که به سادگی پرتاب محاسبات بیشتر در هنگام استنباط ، نتایج بهتر یا کارآمدتری را تضمین نمی کند. این یافته ها می تواند به شرکت ها کمک کند تا نوسانات هزینه و قابلیت اطمینان مدل را بهتر درک کنند زیرا به دنبال ادغام استدلال پیشرفته هوش مصنوعی در برنامه های خود هستند.
قرار دادن روشهای مقیاس گذاری در آزمون
تیم تحقیقاتی مایکروسافت تجزیه و تحلیل تجربی گسترده ای را در 9 مدل بنیاد پیشرفته انجام داد. این شامل هر دو مدل “معمولی” مانند GPT-4O ، Claude 3.5 Sonnet ، Gemini 2.0 Pro و Llama 3.1 405b و همچنین مدل هایی است که به طور خاص برای استدلال پیشرفته از طریق مقیاس بندی زمان استنتاج تنظیم شده اند. این شامل Openai’s O1 و O3-Mini ، Sonnet Claude 3.7 Anthropic ، Google’s Gemini 2 Flash Thinking و Deepseek R1 بود.
آنها این مدل ها را با استفاده از سه روش مقیاس بندی زمان استنباط متمایز ارزیابی کردند:
- زنجیره ای از فکر (COT): روش اصلی که در آن از مدل خواسته می شود به مرحله به مرحله پاسخ دهد.
- مقیاس موازی: این مدل چندین پاسخ مستقل برای همین سؤال ایجاد می کند و از یک جمع کننده (مانند اکثریت آرا یا انتخاب پاسخ بهترین امتیاز) برای رسیدن به نتیجه نهایی استفاده می کند.
- مقیاس بندی متوالی: این مدل به طور تکراری پاسخی ایجاد می کند و از بازخورد منتقدی (به طور بالقوه از خود مدل) استفاده می کند تا پاسخ را در تلاشهای بعدی اصلاح کند.
این رویکردها بر روی هشت مجموعه داده معیار چالش برانگیز که شامل طیف گسترده ای از وظایف است که از حل مسئله مرحله به مرحله بهره مند می شوند ، مورد آزمایش قرار گرفت: استدلال ریاضی و STEM (AIME ، OMNI-MATH ، GPQA) ، برنامه ریزی تقویم (BA-Calendar) ، مشکلات NP-HARD (3SAT ، TSP) ، ناوبری (Maze) و Spatial (Spatialmap).
چندین معیار شامل مشکلاتی در سطح مختلف دشواری است که باعث می شود درک ظریف تر از نحوه رفتار مقیاس بندی با سخت تر شدن مشکلات باشد.
محققان در این مقاله نوشتند: “در دسترس بودن برچسب های دشواری برای MATH-MATH ، TSP ، 3SAT و BA-Calendar به ما این امکان را می دهد تا چگونگی دقت و مقیاس استفاده از نشانه ها را با دشواری در مقیاس بندی زمان استنتاج ، تجزیه و تحلیل کنیم ، این یک چشم انداز است که هنوز هم از آن استفاده نشده است.”
محققان با تجزیه و تحلیل دقت و هزینه محاسباتی ، مرز پارتو استدلال LLM را ارزیابی کردند (یعنی تعداد نشانه های تولید شده). این به شناسایی چگونگی دستیابی به مدل های کارآمد به نتایج خود کمک می کند.

آنها همچنین اندازه گیری “شکاف متعارف به فصلی” را معرفی کردند ، که بهترین عملکرد ممکن از یک مدل معمولی (با استفاده از یک انتخاب ایده آل “بهترین-N”) را در برابر میانگین عملکرد یک مدل استدلال مقایسه می کند و برآورد سودهای بالقوه قابل دستیابی از طریق تکنیک های بهتر یا تکنیک های تأیید.
محاسبات بیشتر همیشه جواب نمی دهد
این مطالعه چندین بینش مهم را ارائه داد که فرضیات متداول در مورد مقیاس بندی زمان استنباط را به چالش می کشد:
مزایا به طور قابل توجهی متفاوت است: در حالی که مدلهای تنظیم شده برای استدلال به طور کلی از روشهای معمولی در این کارها بهتر عمل می کنند ، میزان پیشرفت بسته به دامنه و کار خاص بسیار متفاوت است. با افزایش پیچیدگی مشکل ، دستاوردها کاهش می یابد. به عنوان مثال ، پیشرفت های عملکردی که بر روی مشکلات ریاضی دیده می شود ، همیشه به همان اندازه به استدلال علمی یا کارهای برنامه ریزی ترجمه نمی شود.
ناکارآمدی توکن Rife است: محققان حتی بین مدلهای دستیابی به دقت مشابه ، تنوع زیادی را در مصرف توکن مشاهده کردند. به عنوان مثال ، در معیار ریاضی AIME 2025 ، Deepseek-R1 بیش از پنج برابر توکن بیشتر از Claude 3.7 Sonnet برای دقت متوسط تقریباً قابل مقایسه استفاده کرد.
نشانه های بیشتر منجر به دقت بالاتر نمی شوند: برخلاف تصور شهودی که زنجیره های استدلال طولانی تر به معنای استدلال بهتر است ، این مطالعه نشان داد که این همیشه درست نیست. در این مقاله آمده است: “با کمال تعجب ، ما همچنین مشاهده می کنیم که نسل های طولانی تر نسبت به همان مدل می توانند گاهی اوقات شاخصی از مدل های مبارزه باشند و نه بازتاب بهبود یافته.” “به همین ترتیب ، هنگام مقایسه مدل های استدلال مختلف ، استفاده از توکن بالاتر همیشه با دقت بهتر همراه نیست. این یافته ها نیاز به رویکردهای مقیاس بندی هدفمندتر و مقرون به صرفه تر را ایجاد می کند.”
هزینه عدم وجود: شاید بیشتر مربوط به کاربران سازمانی باشد ، نمایش داده شدگان مکرر به همان مدل برای همین مشکل می توانند منجر به استفاده از توکن بسیار متغیر شوند. این بدان معناست که هزینه اجرای یک پرس و جو می تواند به طور قابل توجهی نوسان کند ، حتی اگر مدل به طور مداوم پاسخ صحیح را ارائه دهد.

پتانسیل در مکانیسم های تأیید: عملکرد مقیاس گذاری به طور مداوم در تمام مدلها و معیارها هنگام شبیه سازی با “تأیید کننده کامل” (با استفاده از بهترین نتایج N) بهبود یافته است.
مدل های معمولی گاهی اوقات با مدل های استدلال مطابقت دارند: با افزایش قابل توجهی در تماسهای استنباط (حداکثر 50 برابر بیشتر در برخی از آزمایشات) ، مدل های معمولی مانند GPT-4O می توانند گاهی اوقات به سطح عملکرد مدل های استدلال اختصاصی ، به ویژه در کارهای کمتر پیچیده نزدیک شوند. با این حال ، این دستاوردها در تنظیمات بسیار پیچیده به سرعت کاهش می یابد ، نشان می دهد که مقیاس گذاری نیروی بی رحمانه محدودیت های خود را دارد.

پیامدهای شرکت
این یافته ها وزن قابل توجهی را برای توسعه دهندگان و پذیرندگان شرکت LLMS به همراه دارد. مسئله “عدم وجود هزینه” به ویژه کاملاً واضح است و بودجه بندی را دشوار می کند. همانطور که محققان خاطرنشان می کنند ، “در حالت ایده آل ، توسعه دهندگان و کاربران مدلهایی را ترجیح می دهند که انحراف استاندارد در استفاده از توکن در هر نمونه برای پیش بینی هزینه کم باشد.”
Besmira Nushi ، مدیر ارشد تحقیقات اصلی در Microsoft Research ، به VentureBeat گفت: “پروفایل ما در (مطالعه) می تواند برای توسعه دهندگان مفید باشد به عنوان ابزاری برای انتخاب کدام مدل ها برای همان سریع و یا برای پیشبرد های مختلف کمتری دارند.” “در حالت ایده آل ، می خواهد مدلی را انتخاب کند که دارای انحراف استاندارد پایین برای ورودی های صحیح باشد.”

این مطالعه همچنین بینش خوبی در مورد همبستگی بین دقت یک مدل و طول پاسخ ارائه می دهد. به عنوان مثال ، نمودار زیر نشان می دهد که نمایش داده شدگان ریاضی بالاتر از 11000 پوند طول توکن شانس بسیار باریک برای صحیح بودن دارند ، و آن نسل ها باید در آن نقطه متوقف شوند یا با برخی از بازخورد پی در پی مجدداً راه اندازی شوند. با این حال ، Nushi خاطرنشان می کند که مدلهایی که به این کاهش های تعقیبی اجازه می دهند ، بین نمونه های صحیح و نادرست از جداسازی پاک تر نیز برخوردار هستند.

نوشی گفت: “در نهایت ، این مسئولیت سازندگان مدل نیز این است که در مورد کاهش دقت و هزینه های غیر تعیین کننده فکر کنند ، و ما انتظار داریم که با بالغ شدن روش ها ، این اتفاقات زیادی رخ دهد.” “در کنار هزینه های غیر تعیین کننده هزینه ، دقت غیر تعیین کننده نیز اعمال می شود.”
یافته مهم دیگر تقویت عملکرد مداوم از تأیید کننده های کامل است ، که یک منطقه مهم برای کارهای آینده را برجسته می کند: ایجاد مکانیسم های تأیید صحت و گسترده ای قابل اجرا.
نوشی گفت: “در دسترس بودن تأیید کننده های قوی تر می تواند انواع مختلفی از تأثیر داشته باشد.” “اگر به طور مؤثر مورد استفاده قرار گیرد ، این موارد همچنین می توانند آثار استدلال را کوتاه کنند.”
تأیید کننده های قوی همچنین می توانند به بخش اصلی راه حل های عامل AI عامل تبدیل شوند. بسیاری از ذینفعان شرکت ها قبلاً چنین تأیید کننده هایی را در دست دارند ، که ممکن است برای راه حل های عامل بیشتر ، مانند حل کننده های SAT ، چک های اعتبار لجستیک و غیره ، مورد نیاز مجدد قرار گیرد.
نوشی گفت: “سؤالات آینده این است که چگونه می توان چنین تکنیک های موجود را با رابط های AI محور ترکیب کرد و زبانی که این دو را به هم وصل می کند ، ترکیب می شود.” “ضرورت اتصال این دو از این واقعیت ناشی می شود که کاربران همیشه نمایش داده های خود را به روشی رسمی تدوین نمی کنند ، آنها می خواهند از یک رابط زبان طبیعی استفاده کنند و انتظار دارند راه حل ها را با فرمت مشابه یا در یک اقدام نهایی (به عنوان مثال پیشنهاد یک جلسه را پیشنهاد می کنند).”
ارسال پاسخ