چگونه مقیاس بندی زمان تست توانایی های استدلال پنهان را در مدل های زبان کوچک باز می کند (و به آنها اجازه می دهد تا از LLMS بهتر عمل کنند)

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

براساس یک مطالعه جدید آزمایشگاه هوش مصنوعی شانگهای ، مدل های زبان بسیار کوچک (SLM) می توانند از مدل های بزرگ زبان (LLMS) در کارهای استدلال بهتر عمل کنند. نویسندگان نشان می دهند که با ابزارهای مناسب و تکنیک های مقیاس بندی زمان آزمایش ، SLM با 1 میلیارد پارامتر می تواند از یک LLM 405B در معیارهای ریاضی پیچیده بهتر عمل کند.

امکان استقرار SLM در کارهای استدلال پیچیده می تواند بسیار مفید باشد زیرا شرکت ها به دنبال راه های جدید برای استفاده از این مدل های جدید در محیط ها و برنامه های مختلف هستند.

مقیاس بندی زمان آزمایش توضیح داده شد

مقیاس بندی زمان تست (TTS) فرایند دادن به استوانه های محاسباتی اضافی LLMS در هنگام استنتاج برای بهبود عملکرد آنها در کارهای مختلف است. مدلهای استدلال پیشرو ، مانند Openai O1 و Deepseek-R1 ، از “TTS داخلی” استفاده می کنند ، به این معنی که آنها با تولید یک رشته طولانی از زنجیره ای از فکر (COT) به آرامی آموزش داده می شوند.

یک رویکرد جایگزین “TTS خارجی” است که در آن عملکرد مدل با کمک خارج (همانطور که از نام آن پیداست) افزایش می یابد. TTS خارجی برای تنظیم مجدد مدل های خروجی برای انجام کارهای استدلال مناسب است بدون اینکه بیشتر آنها را تنظیم کنید. یک تنظیم TTS خارجی معمولاً از “مدل سیاست” تشکیل شده است ، که اصلی ترین LLM است که پاسخ را تولید می کند ، و یک مدل پاداش فرآیند (PRM) که پاسخ های مدل سیاست را ارزیابی می کند. این دو مؤلفه از طریق یک روش نمونه گیری یا جستجو با هم همراه می شوند.

ساده ترین تنظیم “بهترین از N” است که در آن مدل خط مشی پاسخ های متعدد ایجاد می کند و PRM یک یا چند بهترین پاسخ را برای تهیه پاسخ نهایی انتخاب می کند. روشهای پیشرفته تر TTS از جستجو استفاده می کنند. در “جستجوی پرتو” ، مدل پاسخ را به چندین مرحله می شکند.

برای هر مرحله ، پاسخ های مختلفی را نشان می دهد و آنها را از طریق PRM اجرا می کند. سپس یک یا چند نامزد مناسب را انتخاب می کند و مرحله بعدی پاسخ را ایجاد می کند. و در “جستجوی متنوع درختان” (DVTS) ، این مدل چندین شاخه از پاسخ ها را ایجاد می کند تا قبل از ترکیب آنها در پاسخ نهایی ، مجموعه متنوعی از پاسخ های نامزد را ایجاد کند.

روشهای مختلف مقیاس بندی زمان تست (منبع: ARXIV)

استراتژی مقیاس مناسب چیست؟

انتخاب استراتژی مناسب TTS به چندین عامل بستگی دارد. نویسندگان این مطالعه یک بررسی منظم در مورد چگونگی تأثیر مدل های مختلف سیاست و PRM ها بر کارآیی روش های TTS انجام دادند.

یافته های آنها نشان می دهد که کارآیی تا حد زیادی به مدل های سیاست و PRM بستگی دارد. به عنوان مثال ، برای مدلهای سیاست کوچک ، روشهای مبتنی بر جستجو بهتر از بهترین-N است. با این حال ، برای مدل های بزرگ سیاست ، بهترین از N مؤثرتر است زیرا مدل ها از قابلیت استدلال بهتری برخوردار هستند و برای تأیید هر مرحله از استدلال خود نیازی به یک مدل پاداش ندارند.

یافته های آنها همچنین نشان می دهد که استراتژی مناسب TTS به دشواری مشکل بستگی دارد. به عنوان مثال ، برای مدلهای سیاست های کوچک با پارامترهای کمتر از 7B ، بهترین از N برای مشکلات آسان کار می کند ، در حالی که جستجوی پرتو برای مشکلات سخت تر کار می کند. برای مدل های خط مشی که بین پارامترهای 7B و 32B وجود دارد ، جستجوی درختان متنوع برای مشکلات آسان و متوسط عملکرد خوبی دارد و جستجوی پرتو برای مشکلات سخت بهترین کار را می کند. اما برای مدلهای بزرگ سیاست (پارامترهای 72B و موارد دیگر) ، بهترین روش-N روش بهینه برای همه سطوح دشواری است.

چرا مدل های کوچک می توانند مدل های بزرگی را شکست دهند

*SLMS از مدل های بزرگ در ریاضی و AIME-24 (منبع: ARXIV) بهتر است*

بر اساس این یافته ها ، توسعه دهندگان می توانند استراتژی های TTS محاسباتی را ایجاد کنند که مدل خط مشی ، PRM و مشکل مشکل را در نظر بگیرند تا بهترین استفاده از بودجه محاسبه را برای حل مشکلات استدلال انجام دهند.

به عنوان مثال ، محققان دریافتند که یک مدل LLAMA-3.2-3B با استراتژی TTS محاسباتی از Llama-3.1-405B در MATH-500 و AIME24 ، دو معیار ریاضی پیچیده بهتر است. این نشان می دهد که یک SLM می تواند از مدلی که در هنگام استفاده از استراتژی TTS محاسبات بهینه بزرگتر است ، بهتر عمل کند.

در آزمایش های دیگر ، آنها دریافتند که یک مدل QWEN2.5 با 500 میلیون پارامتر می تواند از GPT-4O با استراتژی TTS بهینه محاسبه مناسب بهتر عمل کند. با استفاده از همان استراتژی ، نسخه تقطیر شده 1.5B از Deepseek-R1 از O1-PREVIEW و O1-MINY در MATH-500 و AIME24 فراتر رفت.

هنگام حسابداری از بودجه های محاسبه آموزش و استنتاج ، یافته ها نشان می دهد که با استراتژی های مقیاس بندی بهینه محاسباتی ، SLM ها می توانند از مدل های بزرگتر با 100-1000 برابر FLOPS بهتر عمل کنند.

نتایج محققان نشان می دهد که TTS محاسبات بهینه به طور قابل توجهی قابلیت های استدلال مدل های زبان را افزایش می دهد. با این حال ، با بزرگتر شدن مدل سیاست ، بهبود TTS به تدریج کاهش می یابد.

محققان می نویسند: “این نشان می دهد كه اثربخشی TTS به طور مستقیم با توانایی استدلال الگوی سیاست مرتبط است.” “به طور خاص ، برای مدل هایی که توانایی استدلال ضعیف دارند ، مقیاس محاسبه زمان آزمایش منجر به پیشرفت قابل توجهی می شود ، در حالی که برای مدل هایی با توانایی استدلال قوی ، سود محدود است.”

این مطالعه تأیید می کند که SLM ها می توانند در هنگام استفاده از روشهای مقیاس بندی زمان محاسبات ، عملکرد بهتری نسبت به مدل های بزرگتر داشته باشند. در حالی که این مطالعه بر روی معیارهای ریاضی متمرکز است ، محققان قصد دارند مطالعه خود را به سایر وظایف استدلال مانند برنامه نویسی و شیمی گسترش دهند.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد