کمتر بیشتر است: UC Berkeley و Google Ollock LLM پتانسیل از طریق نمونه گیری ساده

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

مقاله جدید محققان Google Research و دانشگاه کالیفرنیا ، برکلی ، نشان می دهد که یک رویکرد مقیاس بندی زمان شگفت آور ساده آزمایش می تواند توانایی های استدلال مدل های بزرگ زبان (LLMS) را تقویت کند. کلید؟ مقیاس جستجوی مبتنی بر نمونه گیری ، تکنیکی که به ایجاد پاسخ های متعدد و استفاده از خود مدل برای تأیید آنها متکی است.

یافته اصلی این است که حتی یک اجرای مینیمالیستی جستجوی مبتنی بر نمونه گیری ، با استفاده از نمونه گیری تصادفی و خودآزمایی ، می تواند عملکرد استدلال مدل هایی مانند Gemini 1.5 Pro را فراتر از O1-Preview در معیارهای محبوب بالا ببرد. این یافته ها می تواند پیامدهای مهمی برای برنامه های سازمانی داشته باشد و این فرض را به چالش بکشد که آموزش بسیار تخصصی یا معماری های پیچیده همیشه برای دستیابی به عملکرد سطح بالا ضروری است.

محدودیت های مقیاس محاسبه زمان آزمایش فعلی

روش محبوب فعلی برای مقیاس بندی زمان آزمایش در LLMS ، آموزش مدل از طریق یادگیری تقویت برای تولید پاسخ های طولانی تر با آثار زنجیره ای از فکر (COT) است. این روش در مدلهایی مانند Openai O1 و Deepseek-R1 استفاده می شود. در حالی که مفید است ، این روش ها معمولاً در مرحله آموزش نیاز به سرمایه گذاری قابل توجهی دارند.

یکی دیگر از روش های مقیاس بندی زمان آزمایش “خود هماهنگی” است که در آن مدل پاسخ های متعددی به پرس و جو ایجاد می کند و پاسخی را که بیشتر به نظر می رسد انتخاب می کند. خودآزمایی هنگام رسیدگی به مشکلات پیچیده به حد خود می رسد ، زیرا در این موارد ، تکرار ترین پاسخ لزوماً صحیح نیست.

جستجوی مبتنی بر نمونه گیری یک جایگزین ساده تر و بسیار مقیاس پذیر برای مقیاس بندی زمان تست ارائه می دهد: اجازه دهید مدل پاسخ های مختلفی ایجاد کند و بهترین را از طریق مکانیسم تأیید انتخاب کند. جستجوی مبتنی بر نمونه گیری می تواند سایر استراتژی های مقیاس گذاری محاسبات زمان آزمایش را تکمیل کند و همانطور که محققان در مقاله خود می نویسند ، “این مزیت منحصر به فرد را دارد که به طور موازی بودن شرم آور باشد و امکان مقیاس گذاری خودسرانه را فراهم می کند: به سادگی از پاسخ های بیشتر نمونه بگیرید.”

مهمتر از همه ، جستجوی مبتنی بر نمونه گیری می تواند برای هر LLM اعمال شود ، از جمله مواردی که به صراحت برای استدلال آموزش دیده اند.

چگونه جستجوی مبتنی بر نمونه گیری کار می کند

محققان بر اجرای مینیمالیستی جستجوی مبتنی بر نمونه گیری ، با استفاده از یک مدل زبان برای تولید هر دو پاسخ نامزد و تأیید آنها تمرکز می کنند. این یک فرآیند “خودآزمایی” است ، جایی که مدل بدون تکیه بر پاسخ های خارجی زمین یا سیستم های تأیید نمادین ، خروجی های خاص خود را ارزیابی می کند.

اعتبار نمونه گیری مبتنی بر جستجو: VentureBeat

این الگوریتم در چند مرحله ساده کار می کند:

1 – این الگوریتم با تولید مجموعه ای از راه حل های نامزد برای مشکل داده شده با استفاده از یک مدل زبان آغاز می شود. این کار با ارائه مدل همان سریع و استفاده از یک تنظیم دمای غیر صفر برای ایجاد مجموعه متنوعی از پاسخ ها انجام می شود.

2 – هر پاسخ نامزد تحت یک فرآیند تأیید قرار می گیرد که در آن چندین بار از LLM خواسته می شود تا مشخص شود که آیا پاسخ صحیح است یا خیر. نتایج تأیید به طور متوسط برای ایجاد نمره تأیید نهایی برای پاسخ به طور متوسط انجام می شود.

3— الگوریتم بالاترین امتیاز را به عنوان پاسخ نهایی انتخاب می کند. اگر نامزدهای متعدد در فاصله نزدیک یکدیگر قرار داشته باشند ، از LLM خواسته می شود آنها را به صورت جفت مقایسه کنند و بهترین انتخاب را انتخاب کنند. پاسخی که بیشترین مقایسه های زوج را کسب می کند ، به عنوان پاسخ نهایی انتخاب می شود.

محققان دو محور اصلی را برای مقیاس بندی زمان آزمایش در نظر گرفتند:

نمونه برداری: تعداد پاسخ هایی که مدل برای هر مشکل ورودی ایجاد می کند.

تأیید: تعداد نمرات تأیید محاسبه شده برای هر راه حل تولید شده

چگونه جستجوی مبتنی بر نمونه گیری با سایر تکنیک ها مقایسه می شود

این مطالعه نشان داد که عملکرد استدلال با جستجوی مبتنی بر نمونه گیری ، حتی اگر محاسبات زمان آزمایش بسیار فراتر از نقطه ای باشد که اشباع خودآموزی باشد ، بهبود می یابد.

در مقیاس کافی ، این اجرای مینیمالیستی به طور قابل توجهی دقت استدلال را در معیارهای استدلال مانند Aime و Math افزایش می دهد. به عنوان مثال ، عملکرد Gemini 1.5 Pro از O1-PREVIEW پیشی گرفت ، که به صراحت در مورد مشکلات استدلال آموزش دیده است ، و Gemini 1.5 Flash از Gemini 1.5 Pro پیشی گرفت.

محققان می نویسند: “این نه تنها اهمیت جستجوی مبتنی بر نمونه گیری برای توانایی مقیاس بندی را برجسته می کند ، بلکه نشان می دهد که ابزار جستجوی مبتنی بر نمونه گیری به عنوان یک پایه ساده است که در آن می توان دیگر استراتژی های مقیاس گذاری محاسبه زمان آزمایش را مقایسه کرد و پیشرفت های واقعی در قابلیت های جستجوی مدل ها را اندازه گیری کرد.”

شایان ذکر است که اگرچه نتایج نمونه گیری مبتنی بر جستجو چشمگیر است ، هزینه ها نیز می توانند ممنوع شوند. به عنوان مثال ، با 200 نمونه و 50 مرحله تأیید در هر نمونه ، یک پرس و جو از AIME حدود 130 میلیون توکن تولید می کند که با Gemini 1.5 Pro 650 دلار هزینه دارد. با این حال ، این یک رویکرد بسیار مینیمالیستی برای جستجوی مبتنی بر نمونه برداری است ، و با تکنیک های بهینه سازی ارائه شده در مطالعات دیگر سازگار است. با استفاده از روش های نمونه برداری و تأیید دقیق تر ، می توان با استفاده از مدل های کوچکتر و تولید نشانه های کمتری ، هزینه های استنباط را به میزان قابل توجهی کاهش داد. به عنوان مثال ، با استفاده از فلش Gemini 1.5 برای انجام تأیید ، هزینه ها در هر سوال به 12 دلار کاهش می یابد.

استراتژی های مؤثر در تأیید

یک بحث مداوم در مورد اینکه آیا LLMS می تواند پاسخ های خود را تأیید کند ، وجود دارد. محققان دو استراتژی اصلی برای بهبود خودآزمایی با استفاده از محاسبات زمان آزمون را شناسایی کردند:

مقایسه مستقیم نامزدهای پاسخ: اختلافات بین راه حل های نامزد به شدت نشان دهنده خطاهای احتمالی است. با ارائه تأیید کننده با پاسخ های متعدد برای مقایسه ، مدل می تواند اشتباهات و توهمات را بهتر شناسایی کند و به ضعف اصلی LLM ها بپردازد. محققان این موضوع را نمونه ای از “مقیاس بندی ضمنی” توصیف می کنند.

بازنویسی خاص کار: محققان پیشنهاد می کنند که سبک خروجی بهینه LLM به کار بستگی دارد. فکر زنجیره ای برای حل وظایف استدلال مؤثر است ، اما پاسخ ها هنگام نوشتن به سبک رسمی تر و ریاضی معمولی ، آسانتر است. تأیید کننده ها می توانند قبل از ارزیابی ، پاسخ های نامزد را به یک قالب ساختار یافته تر (به عنوان مثال ، قضیه-ضد-ضد-ضد) بازنویسی کنند.

محققان می نویسند: “ما پیش بینی می كنیم كه توانایی های خود تأیید مدل در كوتاه مدت به سرعت بهبود یابد ، زیرا مدل ها یاد می گیرند كه از اصول مقیاس بندی ضمنی و مناسب بودن سبک خروجی استفاده كنند و نرخ مقیاس بندی بهبود یافته را برای جستجوی مبتنی بر نمونه گیری هدایت كنند.”

پیامدهای برنامه های دنیای واقعی

این مطالعه نشان می دهد که یک تکنیک نسبتاً ساده می تواند به نتایج چشمگیر برسد ، و به طور بالقوه نیاز به معماری های مدل پیچیده و پرهزینه یا رژیم های آموزشی را کاهش می دهد.

این همچنین یک تکنیک مقیاس پذیر است و به شرکتها این امکان را می دهد تا با تخصیص منابع محاسباتی بیشتر به نمونه گیری و تأیید ، عملکرد را افزایش دهند. همچنین توسعه دهندگان را قادر می سازد تا مدل های زبان مرزی را فراتر از محدودیت های خود در کارهای پیچیده قرار دهند.

محققان می نویسند: “با توجه به اینکه سایر استراتژی های مقیاس بندی محاسبات زمان آزمایش را تکمیل می کند ، به موازات قابل قبول است و امکان مقیاس بندی خودسرانه را فراهم می کند ، و پیاده سازی های ساده ای را که کاملاً مؤثر هستند ، می پذیرند ، انتظار داریم که جستجوی مبتنی بر نمونه گیری نقش مهمی را ایفا کند زیرا مدل های زبانی وظیفه دارند مشکلات فزاینده ای پیچیده را با بودجه های محاسبه ای به طور فزاینده ای حل کنند.”

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد

کمتر بیشتر است: UC Berkeley و Google Ollock LLM پتانسیل از طریق نمونه گیری ساده

محدودیت های مقیاس محاسبه زمان آزمایش فعلی

چگونه جستجوی مبتنی بر نمونه گیری کار می کند

چگونه جستجوی مبتنی بر نمونه گیری با سایر تکنیک ها مقایسه می شود

استراتژی های مؤثر در تأیید

پیامدهای برنامه های دنیای واقعی

کاخ پاپ مخفی که واتیکان را با 1000 سال کشف شده در رم پیش بینی می کند

از آنجا که قطع فناوری کنترل ترافیک هوایی را در تاریکی از بین می برد ، از فاجعه به سختی اجتناب کرد

Move Windsurf 3B $ Openai: دلیل واقعی فشار کد AI شرکت خود

آتشفشان بزرگ ایالات متحده پیش بینی می شود فردا فوران کند

کسب سال گذشته توسط اپل می تواند منجر به اعلام Big AI در WWDC شود

تنظیم دقیق در مقابل یادگیری درون متن: راهنمای تحقیقات جدید بهتر شخصی سازی LLM برای کارهای دنیای واقعی

پروازهای سراسر آمریکا پس از یک تماس نزدیک وحشتناک دیگر در یکی از شلوغ ترین فرودگاه های ما به هرج و مرج پرتاب شد

کانون شماره 30: طراحی مجدد اندرویدی بهترین فرصت برای پیروزی است

انفجار شرکت Esports با دفتر نیویورک به ما گسترش می یابد

ادعای خنک کننده Mountain Dew Flavors چهار فاجعه کشنده ایالات متحده را پیش بینی کرد

T-Mobile یک ویژگی شماره رایگان را قطع می کند اما یک جایگزین پرداخت شده وجود دارد

Jogo معمولی گیمر با دستیابی به RHQ Creative در نقشه های UEFN دو برابر می شود

آنچه ما در مورد آژانس مخفی دولتی که قصد دارد خورشید را کم کند می دانیم – همانطور که کارشناسان نسبت به عواقب “ناخواسته” هشدار می دهند

عکس دیگری از نبرد هفته بین سامسونگ و ویوو

چه ابزارهای SOC در ساعت 2:13 صبح از دست می دهند: زنجیرهای حمله Gen AI از Telemetry Lag-Part 1 بهره برداری می کنند

متخصص راز جلوگیری از سرقت دریایی تراشه های شما را فاش می کند

اخراج های بازی تا اوایل ماه مه همچنان کاهش می یابد | امیر ساتوات

اولین هاوربیک به سبک جنگ ستارگان جهان می تواند 124 مایل در ساعت داشته باشد و برای پرواز به پروانه ها احتیاج ندارد

طراحی مجدد Samsung Galaxy Watch 8 ‘ممکن است یکی باشد که ما قبلاً با آن آشنا هستیم

جام جهانی Esports برای 200 تورنمنت بازی مسیر ریاض را نشان می دهد