برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
استدلال از طریق زنجیره ای از فکر (COT)-فرایندی که مدل ها قبل از کسر پاسخ ها مشکلات را به “افکار” قابل کنترل تقسیم می کنند-به بخشی جدایی ناپذیر از آخرین نسل از مدل های بزرگ زبان مرزی (LLMS) تبدیل شده است.
با این حال ، هزینه های استنباط مدل های استدلال می تواند به سرعت جمع شود زیرا مدل ها باعث ایجاد نشانه های اضافی تختخواب می شوند. در مقاله جدید ، محققان دانشگاه کارنگی ملون یک تکنیک آموزش LLM را پیشنهاد می کنند که به توسعه دهندگان کنترل بیشتری بر طول تختخواب می دهد.
بهینه سازی خط مشی کنترل شده طول (LCPO) ، این تکنیک مدل را برای ارائه پاسخ های صحیح و در عین حال “افکار” خود در بودجه توکن از پیش تعیین شده نیز حفظ می کند. آزمایشات نشان می دهد که مدل های آموزش دیده در LCPO یک تجارت صاف بین دقت و هزینه را فراهم می کنند و می توانند به طرز شگفت آور از مدل های بزرگتر در طول استدلال مساوی بهتر عمل کنند. LCPO می تواند با صرفه جویی در هزاران نشانه در هر دور مکالمه با LLM ، به طور چشمگیری در کاهش هزینه های استنباط در برنامه های سازمانی کمک کند.
عملکرد LLM منجر به گلدان های طولانی تر می شود
مدل های استدلال مانند Openai O1 و Deepseek-R1 از طریق یادگیری تقویت (RL) برای استفاده از مقیاس بندی زمان آزمایش و تولید اثرات COT قبل از تولید پاسخ آموزش داده می شوند. شواهد تجربی نشان می دهد که وقتی مدل ها “فکر می کنند” طولانی تر است ، آنها تمایل دارند که در کارهای استدلال بهتر عمل کنند.
به عنوان مثال ، R1 در ابتدا بر روی RL خالص و بدون نمونه های دارای برچسب انسانی آموزش داده شد. یکی از بینش ها این بود که با بهبود عملکرد مدل ، همچنین یاد گرفت که اثری از تختخواب طولانی تر تولید کند.
در حالی که به طور کلی ، زنجیره های تختخواب بلند منجر به پاسخ های دقیق تر می شوند ، آنها همچنین یک تنگنا محاسبه در استفاده از مدل های استدلال در مقیاس ایجاد می کنند. در حال حاضر کنترل بسیار کمی بر بودجه محاسبه زمان آزمایش وجود دارد و توالی ها می توانند به راحتی به ده ها هزار نشانه بدون ایجاد سود قابل توجهی کشیده شوند. تلاش هایی برای کنترل طول زنجیره های استدلال صورت گرفته است ، اما آنها معمولاً عملکرد مدل را کاهش می دهند.
بهینه سازی سیاست کنترل شده طول (LCPO) توضیح داد
روش کلاسیک RL فقط برای دستیابی به پاسخ صحیح ، LLMS را آموزش می دهد. LCPO با معرفی دو هدف آموزش این الگوی را تغییر می دهد: 1) نتیجه صحیح را بدست آورید و 2) زنجیره تخت را در طول توکن خاص نگه دارید. بنابراین ، اگر این مدل پاسخ صحیح را ایجاد کند اما تعداد زیادی از نشانه های COT را ایجاد می کند ، یک پنالتی دریافت می کند و مجبور می شود یک زنجیره استدلال را ارائه دهد که به همان پاسخ اما با بودجه نشانه ای کوچکتر برسد.
محققان می نویسند: “مدل های آموزش دیده LCPO یاد می گیرند که ضمن بهینه سازی عملکرد استدلال ، محدودیت های طول را برآورده کنند ، نه اینکه به اکتشافی های مهندسی دستی تکیه کنند.”
آنها دو طعم LCPO را پیشنهاد می کنند: (1) LCPO-Exact ، که نیاز به استدلال تولید شده دقیقاً برابر با طول هدف است ، و (2) LCPO-MAX ، که نیاز به خروجی بیشتر از طول هدف ندارد.
برای آزمایش این تکنیک ، محققان یک مدل استدلال 1.5B-Parameter (QWEN-Dististed-R1-1.5b) را در دو طرح LCPO پیشنهادی برای ایجاد مدل های L1-MAX و L1-Exact تنظیم کردند. آموزش مبتنی بر مشکلات ریاضی با نتایج متمایز و قابل اثبات بود. با این حال ، این ارزیابی شامل مشکلات ریاضی و همچنین کارهای خارج از توزیع مانند اندازه گیری تکنیک گسترده درک زبان چند وظیفه ای (MMLU) و معیار پرسش و پاسخ Google-Google در سطح فارغ التحصیل (GPQA) است.
یافته های آنها نشان می دهد که مدل های L1 دقیقاً می توانند بودجه و عملکرد استدلال را متعادل کنند ، با همبستگی بین استدلال کوتاه ، کارآمد و استدلال طولانی تر و دقیق تر با ایجاد مدل با محدودیت های طول متفاوت. نکته مهم این است که در برخی از کارها ، مدل های L1 می توانند عملکرد مدل استدلال اصلی را با بودجه پایین تر بازتولید کنند.
در مقایسه با S1 – تنها روش دیگری که طول مدلهای COT را محدود می کند – مدل های L1 تا 150 ٪ سود عملکرد را در بودجه های مختلف نشان می دهد.
محققان می نویسند: “این تفاوت اساسی را می توان به دو عامل اصلی نسبت داد.” “(1) L1 هوشمندانه تخت خود را تطبیق می دهد تا در محدودیت های طول مشخص و بدون ایجاد اختلال در روند استدلال قرار بگیرد ، در حالی که S1 اغلب در اواسط فصلی کوتاه می شود. و (2) L1 به صراحت آموزش داده شده است تا زنجیره های استدلال با کیفیت بالا با طول های مختلف را تولید کند ، و الگوهای استدلال را به طور مؤثر از زنجیره های طولانی تر به موارد کوتاه تر تقطیر می کند. “
L1 همچنین از همتای غیر فصلی خود 5 ٪ و GPT-4O با 2 ٪ در طول تولید مساوی بهتر است. محققان می نویسند: “در مورد بهترین دانش ما ، این اولین تظاهرات است که یک مدل 1.5B می تواند با وجود استفاده از همان طول نسل ، از مدل های مرزی مانند GPT-4O بهتر عمل کند.”
جالب اینجاست که COT مدل نشان می دهد که یاد می گیرد روند استدلال خود را بر اساس بودجه نشانه خود تنظیم کند. به عنوان مثال ، در بودجه های طولانی تر ، این مدل به احتمال زیاد نشانه های مرتبط با خود تصحیح و تأیید (یعنی “اما” و “صبر”) و ترسیم نتیجه گیری (“بنابراین” و “SO”) را تولید می کند.

فراتر از کنترل طول بهبود یافته در تنظیم استدلال ریاضی استاندارد ، مدل های L1 به طور شگفت آور به کارهای خارج از توزیع ، از جمله GPQA و MMLU تعمیم می دهند.
این خط تحقیق جدید در مورد مدلهایی که می توانند بودجه استدلال خود را تنظیم کنند می تواند کاربردهای مهمی برای برنامه های دنیای واقعی داشته باشد و به شرکت ها امکان مقیاس مدل های استدلال را بدون هزینه های فراری می دهد. این یک جایگزین قدرتمند برای استفاده از مدل های بزرگتر و گران تر است-و می تواند یک عامل مهم در ساخت هوش مصنوعی برای برنامه های با حجم بالا و واقعی باشد.
محققان کد LCPO و وزن مدل های L1 را باز کرده اند.
ارسال پاسخ