برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
Deepseek AI ، یک آزمایشگاه تحقیقاتی چینی که به دلیل مدل های قدرتمند زبان منبع باز خود مانند Deepseek-R1 به رسمیت شناخته شده است ، پیشرفت قابل توجهی در مدل سازی پاداش برای مدلهای زبان بزرگ (LLMS) معرفی کرده است.
تکنیک جدید آنها ، تنظیم نقد خود با توجه به خود (SPCT) ، با هدف ایجاد مدلهای پاداش عمومی و مقیاس پذیر (RMS) است. این به طور بالقوه می تواند منجر به برنامه های هوش مصنوعی تر برای کارهای و دامنه های باز شود که در آن مدل های فعلی نتوانند تفاوت های ظریف و پیچیدگی های محیط و کاربران خود را ضبط کنند.
نقش مهم و محدودیت های فعلی مدل های پاداش
یادگیری تقویت (RL) به سنگ بنای توسعه LLM های پیشرفته تبدیل شده است. در RL ، مدل ها بر اساس سیگنال های بازخورد تنظیم می شوند که نشان دهنده کیفیت پاسخ های آنها است.
مدل های پاداش یک مؤلفه مهم هستند که این سیگنال ها را ارائه می دهند. در اصل ، یک RM به عنوان قاضی عمل می کند ، ارزیابی خروجی های LLM و اختصاص نمره یا “پاداش” را که روند RL را راهنمایی می کند و به LLM آموزش می دهد تا پاسخ های مفید تری را آموزش دهد.
با این حال ، RM های فعلی اغلب با محدودیت هایی روبرو هستند. آنها به طور معمول در حوزه های باریک با قوانین واضح و یا پاسخ به راحتی قابل اثبات هستند. به عنوان مثال ، مدل های استدلال فعلی پیشرفته مانند Deepseek-R1 تحت یک مرحله RL قرار گرفتند ، که در آن آنها بر روی مشکلات ریاضی و برنامه نویسی آموزش داده شده اند که حقیقت زمین به وضوح تعریف شده است.
با این حال ، ایجاد یک الگوی پاداش برای نمایش داده های پیچیده ، باز یا ذهنی در حوزه های عمومی یک مانع اساسی است. در مقاله ای که تکنیک جدید آنها را توضیح می دهد ، محققان در Deepseek AI می نویسند ، “Generalist RM نیاز به تولید پاداش های با کیفیت بالا فراتر از حوزه های خاص دارد ، جایی که معیارهای پاداش متنوع تر و پیچیده تر است ، و اغلب هیچ مرجع صریح یا حقیقت زمینی وجود ندارد.”
آنها چهار چالش اساسی در ایجاد RMS عمومی را که قادر به انجام کارهای گسترده تر هستند برجسته می کنند:
- انعطاف پذیری ورودی: RM باید انواع ورودی های مختلف را اداره کند و بتواند یک یا چند پاسخ را همزمان ارزیابی کند.
- دقت: این باید سیگنال های پاداش دقیقی را در حوزه های متنوعی ایجاد کند که در آن معیارها پیچیده است و حقیقت زمین اغلب در دسترس نیست.
- مقیاس پذیری زمان استنباط: RM باید در صورت اختصاص منابع محاسباتی بیشتر در هنگام استنتاج ، پاداش با کیفیت بالاتر تولید کند.
- یادگیری رفتارهای مقیاس پذیر: برای اینکه RMS در زمان استنتاج به طور مؤثر مقیاس شود ، آنها باید رفتارهایی را بیاموزند که عملکرد بهبود یافته را امکان پذیر می کند زیرا از محاسبات بیشتر استفاده می شود.
مدل های پاداش را می توان به طور گسترده ای با “الگوی تولید پاداش” خود طبقه بندی کرد (به عنوان مثال ، RMS Scalar در حال تولید یک نمره واحد ، RMS تولید کننده تولید نقد متنی) و “الگوی امتیاز دهی” آنها (به عنوان مثال ، امتیاز دهی به صورت امتیاز ، امتیازات فردی را به هر پاسخ اختصاص می دهد ، جفت بهتر دو پاسخ را انتخاب می کند). این گزینه های طراحی بر مناسب بودن مدل برای کارهای عمومی ، به ویژه آن تأثیر می گذارد انعطاف پذیری ورودی و پتانسیل برای مقیاس بندی زمان استنباطبشر
به عنوان مثال ، RMS مقیاس ساده با مقیاس بندی زمان استنباط مبارزه می کند زیرا آنها به طور مکرر نمره مشابه را تولید می کنند ، در حالی که RMS زوجی به راحتی نمی توانند پاسخ های مجرد را ارزیابی کنند.
محققان پیشنهاد می کنند که “مدل سازی پاداش تولیدی نقطه ای” (GRM) ، جایی که مدل نقد متنی ایجاد می کند و نمرات آنها را به دست می آورد ، می تواند انعطاف پذیری و مقیاس پذیری مورد نیاز برای نیازهای عمومی را ارائه دهد.
تیم Deepseek آزمایش های مقدماتی را در مورد مدل هایی مانند GPT-4O و Gemma-2-27B انجام داد و دریافت که “اصول خاص می تواند تولید پاداش را در معیارهای مناسب برای GRM ها هدایت کند ، و به ما الهام بخش است که با مقیاس پذیری در زمان استنباط از RM ممکن است با مقیاس بندی اصول با کیفیت بالا و پیش بینی های دقیق حاصل شود.”
آموزش RMS برای تولید اصول خاص خود
بر اساس این یافته ها ، محققان تنظیم نقد خود را با توجه به خود (SPCT) توسعه دادند ، که GRM را برای تولید اصول و نقد ها بر اساس نمایش داده ها و پاسخ ها به صورت پویا آموزش می دهد.
محققان پیشنهاد می کنند که اصول باید به جای یک مرحله پیش پردازش ، “بخشی از تولید پاداش باشد.” به این ترتیب ، GRMS می تواند بر اساس کارهایی که ارزیابی می کنند ، اصول را در مورد پرواز ایجاد کنند و سپس بر اساس اصول ، انتقاداتی را ایجاد کنند.
محققان می نویسند: “این تغییر (این تغییر) را قادر می سازد بر اساس پرس و جو و پاسخ های ورودی ، فرآیند تولید پاداش به صورت تطبیقی () و کیفیت و دانه بندی اصول و انتقادات مربوطه با استفاده از آموزش پس از آموزش در GRM بهبود یابد.”

SPCT شامل دو مرحله اصلی است:
- تنظیم دقیق رد: این مرحله GRM را برای تولید اصول و نقد برای انواع مختلف ورودی با استفاده از قالب صحیح آموزش می دهد. این مدل اصول ، انتقادات و پاداش ها را برای نمایش داده ها/پاسخ های داده شده ایجاد می کند. مسیرها (تلاش های نسل) فقط درصورتی پذیرفته می شوند که پاداش پیش بینی شده با حقیقت زمین مطابقت داشته باشد (به عنوان مثال به طور صحیح پاسخ بهتر را مشخص می کند) و در غیر این صورت رد می شود. این فرآیند تکرار می شود و مدل بر روی نمونه های فیلتر شده به خوبی تنظیم می شود تا قابلیت های تولید اصل/نقد آن را بهبود بخشد.
- RL مبتنی بر قانون: در این مرحله ، این مدل از طریق یادگیری تقویت مبتنی بر نتیجه تنظیم می شود. GRM برای هر پرس و جو اصول و انتقاداتی ایجاد می کند و سیگنال های پاداش بر اساس قوانین دقت ساده محاسبه می شوند (به عنوان مثال ، آیا بهترین پاسخ شناخته شده را انتخاب کرده است؟). سپس مدل به روز می شود. این امر GRM را ترغیب می کند تا یاد بگیرد که چگونه اصول مؤثر و انتقادات دقیق را به صورت پویا و به صورت مقیاس پذیر ایجاد کند.
محققان می نویسند: “با استفاده از RL آنلاین مبتنی بر قانون ، SPCT GRMS را قادر می سازد كه اصول و انتقادات تطبیقی را بر اساس پرس و جو و پاسخ های ورودی بیاموزند و منجر به پاداش نتیجه بهتر در حوزه های عمومی می شوند.”
برای مقابله با چالش مقیاس بندی زمان استنتاج (بدست آوردن نتایج بهتر با محاسبه بیشتر) ، محققان چندین بار GRM را برای همان ورودی اجرا می کنند و مجموعه های مختلفی از اصول و انتقادات را ایجاد می کنند. پاداش نهایی با رای گیری (جمع کردن نمرات نمونه) تعیین می شود. این به مدل اجازه می دهد طیف گسترده تری از دیدگاه ها را در نظر بگیرد و منجر به قضاوت های نهایی دقیق تر و ظریف تر شود زیرا منابع بیشتری ارائه می شود.
با این حال ، برخی از اصول/انتقادات تولید شده به دلیل محدودیت های مدل یا تصادفی ممکن است با کیفیت پایین یا مغرضانه باشند. برای پرداختن به این موضوع ، محققان “متا” را معرفی کردند RM ” – یک مقیاس کوچک و جداگانه RM که به طور خاص آموزش داده شده است تا پیش بینی کند که آیا یک اصل/نقد ناشی از GRM اولیه احتمالاً منجر به پاداش نهایی صحیح خواهد شد.
در حین استنباط ، متا RM نمونه های تولید شده را ارزیابی می کند و احکام با کیفیت پایین را قبل از رای گیری نهایی فیلتر می کند و عملکرد مقیاس پذیری را بیشتر می کند.
قرار دادن SPCT با Deepseek-GRM
محققان SPCT را به GEMMA-2-27B ، مدل وزن باز Google اعمال کردند و Deepseek-GRM-27B را ایجاد کردند. آنها آن را در برابر چندین RMS پایه قوی (از جمله LLM-AS-A-A-ududge ، RMS Scalar و RMS نیمه مقیاس) و مدلهای عمومی (مانند GPT-4O و Nemotron-4-340B-Revard) در معیارهای مختلف ارزیابی کردند.
آنها دریافتند که Deepseek-GRM-27B از روشهای پایه اولیه که بر روی همان داده ها آموزش دیده است ، بهتر است. SPCT به طور قابل توجهی کیفیت و از نظر مهم ، مقیاس پذیری زمان استنباط را در مقایسه با تنظیم دقیق استاندارد بهبود بخشید.

هنگامی که در زمان استنتاج با تولید نمونه های بیشتر مقیاس بندی شد ، عملکرد Deepseek-GRM-27B به طور قابل توجهی افزایش یافت و از مدلهای بسیار بزرگتر مانند Nemotron-4-340B-Reward و GPT-4O پیشی گرفت. متا RM با افزایش قضاوت ها ، مقیاس بندی را بیشتر بهبود بخشید.
محققان می نویسند: “با نمونه گیری در مقیاس بزرگتر ، Deepseek-GRM می تواند با دقت بیشتری بر اصول با تنوع بالاتر و جوایز خروجی با دانه بندی دقیق تر قضاوت کند.”
جالب اینجاست که SPCT در مقایسه با RMS مقیاس ، تعصب کمتری در دامنه های مختلف نشان داد ، که اغلب در کارهای قابل اثبات اما در جای دیگر ضعیف عمل می کردند.
پیامدهای شرکت
توسعه مدلهای پاداش عمومی تر و مقیاس پذیر می تواند برای برنامه های هوش مصنوعی شرکت امیدوار کننده باشد. زمینه های بالقوه که می توانند از RMS عمومی بهره مند شوند شامل وظایف خلاقانه و برنامه های کاربردی است که در آن مدل باید با محیط های پویا مانند تحول در ترجیحات مشتری سازگار باشد.
با وجود نتایج قوی ، Deepseek-GRM هنوز از RMS تخصصی مقیاس در کارهای کاملاً قابل اثبات عقب مانده است که در آن تولید استدلال صریح ممکن است از امتیاز دهی مستقیم کارآمد باشد. بهره وری همچنین در مقایسه با RMS غیر نسلی یک چالش است.
تیم Deepseek نشان می دهد که کار آینده بر پیشرفت کارآیی و ادغام عمیق تر متمرکز خواهد شد. آنها نتیجه می گیرند ، “دستورالعمل های آینده می تواند شامل ادغام GRM ها در خطوط لوله RL آنلاین به عنوان رابط های همه کاره از سیستم های پاداش ، کاوش در مقیاس بندی زمان استنباط با مدل های خط مشی یا خدمت به عنوان ارزیاب های آفلاین قوی برای مدل های بنیاد باشد.”
ارسال پاسخ