برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
مقاله جدید محققان Google Research و دانشگاه کالیفرنیا ، برکلی ، نشان می دهد که یک رویکرد مقیاس بندی زمان شگفت آور ساده آزمایش می تواند توانایی های استدلال مدل های بزرگ زبان (LLMS) را تقویت کند. کلید؟ مقیاس جستجوی مبتنی بر نمونه گیری ، تکنیکی که به ایجاد پاسخ های متعدد و استفاده از خود مدل برای تأیید آنها متکی است.
یافته اصلی این است که حتی یک اجرای مینیمالیستی جستجوی مبتنی بر نمونه گیری ، با استفاده از نمونه گیری تصادفی و خودآزمایی ، می تواند عملکرد استدلال مدل هایی مانند Gemini 1.5 Pro را فراتر از O1-Preview در معیارهای محبوب بالا ببرد. این یافته ها می تواند پیامدهای مهمی برای برنامه های سازمانی داشته باشد و این فرض را به چالش بکشد که آموزش بسیار تخصصی یا معماری های پیچیده همیشه برای دستیابی به عملکرد سطح بالا ضروری است.
محدودیت های مقیاس محاسبه زمان آزمایش فعلی
روش محبوب فعلی برای مقیاس بندی زمان آزمایش در LLMS ، آموزش مدل از طریق یادگیری تقویت برای تولید پاسخ های طولانی تر با آثار زنجیره ای از فکر (COT) است. این روش در مدلهایی مانند Openai O1 و Deepseek-R1 استفاده می شود. در حالی که مفید است ، این روش ها معمولاً در مرحله آموزش نیاز به سرمایه گذاری قابل توجهی دارند.
یکی دیگر از روش های مقیاس بندی زمان آزمایش “خود هماهنگی” است که در آن مدل پاسخ های متعددی به پرس و جو ایجاد می کند و پاسخی را که بیشتر به نظر می رسد انتخاب می کند. خودآزمایی هنگام رسیدگی به مشکلات پیچیده به حد خود می رسد ، زیرا در این موارد ، تکرار ترین پاسخ لزوماً صحیح نیست.
جستجوی مبتنی بر نمونه گیری یک جایگزین ساده تر و بسیار مقیاس پذیر برای مقیاس بندی زمان تست ارائه می دهد: اجازه دهید مدل پاسخ های مختلفی ایجاد کند و بهترین را از طریق مکانیسم تأیید انتخاب کند. جستجوی مبتنی بر نمونه گیری می تواند سایر استراتژی های مقیاس گذاری محاسبات زمان آزمایش را تکمیل کند و همانطور که محققان در مقاله خود می نویسند ، “این مزیت منحصر به فرد را دارد که به طور موازی بودن شرم آور باشد و امکان مقیاس گذاری خودسرانه را فراهم می کند: به سادگی از پاسخ های بیشتر نمونه بگیرید.”
مهمتر از همه ، جستجوی مبتنی بر نمونه گیری می تواند برای هر LLM اعمال شود ، از جمله مواردی که به صراحت برای استدلال آموزش دیده اند.
چگونه جستجوی مبتنی بر نمونه گیری کار می کند
محققان بر اجرای مینیمالیستی جستجوی مبتنی بر نمونه گیری ، با استفاده از یک مدل زبان برای تولید هر دو پاسخ نامزد و تأیید آنها تمرکز می کنند. این یک فرآیند “خودآزمایی” است ، جایی که مدل بدون تکیه بر پاسخ های خارجی زمین یا سیستم های تأیید نمادین ، خروجی های خاص خود را ارزیابی می کند.
این الگوریتم در چند مرحله ساده کار می کند:
1 – این الگوریتم با تولید مجموعه ای از راه حل های نامزد برای مشکل داده شده با استفاده از یک مدل زبان آغاز می شود. این کار با ارائه مدل همان سریع و استفاده از یک تنظیم دمای غیر صفر برای ایجاد مجموعه متنوعی از پاسخ ها انجام می شود.
2 – هر پاسخ نامزد تحت یک فرآیند تأیید قرار می گیرد که در آن چندین بار از LLM خواسته می شود تا مشخص شود که آیا پاسخ صحیح است یا خیر. نتایج تأیید به طور متوسط برای ایجاد نمره تأیید نهایی برای پاسخ به طور متوسط انجام می شود.
3— الگوریتم بالاترین امتیاز را به عنوان پاسخ نهایی انتخاب می کند. اگر نامزدهای متعدد در فاصله نزدیک یکدیگر قرار داشته باشند ، از LLM خواسته می شود آنها را به صورت جفت مقایسه کنند و بهترین انتخاب را انتخاب کنند. پاسخی که بیشترین مقایسه های زوج را کسب می کند ، به عنوان پاسخ نهایی انتخاب می شود.
محققان دو محور اصلی را برای مقیاس بندی زمان آزمایش در نظر گرفتند:
نمونه برداری: تعداد پاسخ هایی که مدل برای هر مشکل ورودی ایجاد می کند.
تأیید: تعداد نمرات تأیید محاسبه شده برای هر راه حل تولید شده
چگونه جستجوی مبتنی بر نمونه گیری با سایر تکنیک ها مقایسه می شود
این مطالعه نشان داد که عملکرد استدلال با جستجوی مبتنی بر نمونه گیری ، حتی اگر محاسبات زمان آزمایش بسیار فراتر از نقطه ای باشد که اشباع خودآموزی باشد ، بهبود می یابد.
در مقیاس کافی ، این اجرای مینیمالیستی به طور قابل توجهی دقت استدلال را در معیارهای استدلال مانند Aime و Math افزایش می دهد. به عنوان مثال ، عملکرد Gemini 1.5 Pro از O1-PREVIEW پیشی گرفت ، که به صراحت در مورد مشکلات استدلال آموزش دیده است ، و Gemini 1.5 Flash از Gemini 1.5 Pro پیشی گرفت.

محققان می نویسند: “این نه تنها اهمیت جستجوی مبتنی بر نمونه گیری برای توانایی مقیاس بندی را برجسته می کند ، بلکه نشان می دهد که ابزار جستجوی مبتنی بر نمونه گیری به عنوان یک پایه ساده است که در آن می توان دیگر استراتژی های مقیاس گذاری محاسبه زمان آزمایش را مقایسه کرد و پیشرفت های واقعی در قابلیت های جستجوی مدل ها را اندازه گیری کرد.”
شایان ذکر است که اگرچه نتایج نمونه گیری مبتنی بر جستجو چشمگیر است ، هزینه ها نیز می توانند ممنوع شوند. به عنوان مثال ، با 200 نمونه و 50 مرحله تأیید در هر نمونه ، یک پرس و جو از AIME حدود 130 میلیون توکن تولید می کند که با Gemini 1.5 Pro 650 دلار هزینه دارد. با این حال ، این یک رویکرد بسیار مینیمالیستی برای جستجوی مبتنی بر نمونه برداری است ، و با تکنیک های بهینه سازی ارائه شده در مطالعات دیگر سازگار است. با استفاده از روش های نمونه برداری و تأیید دقیق تر ، می توان با استفاده از مدل های کوچکتر و تولید نشانه های کمتری ، هزینه های استنباط را به میزان قابل توجهی کاهش داد. به عنوان مثال ، با استفاده از فلش Gemini 1.5 برای انجام تأیید ، هزینه ها در هر سوال به 12 دلار کاهش می یابد.
استراتژی های مؤثر در تأیید
یک بحث مداوم در مورد اینکه آیا LLMS می تواند پاسخ های خود را تأیید کند ، وجود دارد. محققان دو استراتژی اصلی برای بهبود خودآزمایی با استفاده از محاسبات زمان آزمون را شناسایی کردند:
مقایسه مستقیم نامزدهای پاسخ: اختلافات بین راه حل های نامزد به شدت نشان دهنده خطاهای احتمالی است. با ارائه تأیید کننده با پاسخ های متعدد برای مقایسه ، مدل می تواند اشتباهات و توهمات را بهتر شناسایی کند و به ضعف اصلی LLM ها بپردازد. محققان این موضوع را نمونه ای از “مقیاس بندی ضمنی” توصیف می کنند.
بازنویسی خاص کار: محققان پیشنهاد می کنند که سبک خروجی بهینه LLM به کار بستگی دارد. فکر زنجیره ای برای حل وظایف استدلال مؤثر است ، اما پاسخ ها هنگام نوشتن به سبک رسمی تر و ریاضی معمولی ، آسانتر است. تأیید کننده ها می توانند قبل از ارزیابی ، پاسخ های نامزد را به یک قالب ساختار یافته تر (به عنوان مثال ، قضیه-ضد-ضد-ضد) بازنویسی کنند.
محققان می نویسند: “ما پیش بینی می كنیم كه توانایی های خود تأیید مدل در كوتاه مدت به سرعت بهبود یابد ، زیرا مدل ها یاد می گیرند كه از اصول مقیاس بندی ضمنی و مناسب بودن سبک خروجی استفاده كنند و نرخ مقیاس بندی بهبود یافته را برای جستجوی مبتنی بر نمونه گیری هدایت كنند.”
پیامدهای برنامه های دنیای واقعی
این مطالعه نشان می دهد که یک تکنیک نسبتاً ساده می تواند به نتایج چشمگیر برسد ، و به طور بالقوه نیاز به معماری های مدل پیچیده و پرهزینه یا رژیم های آموزشی را کاهش می دهد.
این همچنین یک تکنیک مقیاس پذیر است و به شرکتها این امکان را می دهد تا با تخصیص منابع محاسباتی بیشتر به نمونه گیری و تأیید ، عملکرد را افزایش دهند. همچنین توسعه دهندگان را قادر می سازد تا مدل های زبان مرزی را فراتر از محدودیت های خود در کارهای پیچیده قرار دهند.
محققان می نویسند: “با توجه به اینکه سایر استراتژی های مقیاس بندی محاسبات زمان آزمایش را تکمیل می کند ، به موازات قابل قبول است و امکان مقیاس بندی خودسرانه را فراهم می کند ، و پیاده سازی های ساده ای را که کاملاً مؤثر هستند ، می پذیرند ، انتظار داریم که جستجوی مبتنی بر نمونه گیری نقش مهمی را ایفا کند زیرا مدل های زبانی وظیفه دارند مشکلات فزاینده ای پیچیده را با بودجه های محاسبه ای به طور فزاینده ای حل کنند.”
ارسال پاسخ