Deepseeker و همکاران سابق روش جدیدی را برای آموزش عوامل قابل اعتماد AI منتشر می کنند: راگن

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

سال 2025 ، توسط بسیاری از حساب های متخصص ، قرار بود سال عوامل هوش مصنوعی باشد-پیاده سازی های خاص AI کار با استفاده از مدل های بزرگ زبان و مدل های چند مدلی (LLM) مانند انواع ارائه شده توسط OpenAi ، Anthropic ، Google و Deepseek.

اما تا کنون ، براساس نظرسنجی اخیر که توسط VentureBeat در شبکه اجتماعی X انجام شده است ، بیشتر مأمورین هوش مصنوعی به عنوان خلبانان آزمایشی در نوعی پاکسازی شرکت ها گیر کرده اند.

کمک ممکن است در راه باشد: یک تیم مشترک از دانشگاه شمال غربی ، مایکروسافت ، استنفورد و دانشگاه واشنگتن-از جمله یک محقق سابق Deepseek به نام Zihan Wang ، که در حال حاضر یک دکتری علوم کامپیوتر را در شمال غربی تکمیل می کند-سیستم جدیدی را برای آموزش معرفی کرده است و ارزیابی های AI را که امیدوار هستند باعث شود آنها آنها را برای واقعی تر و از نظر واقعی تر و قابل اعتماد تر کنند.

بر خلاف کارهای استاتیک مانند حل ریاضی یا تولید کد ، راگن بر روی تنظیمات چند چرخش و تعاملی تمرکز می کند که در مواجهه با عدم اطمینان ، عوامل باید سازگار ، به یاد داشته باشند و استدلال کنند.

این سیستم که بر روی یک چارچوب RL سفارشی به نام StarPo (دولت-آمریكا-اقدامات-بازپرداخت سیاست) ساخته شده است ، این سیستم را بررسی می كند كه چگونه LLM ها می توانند از طریق تجربه آموختند و نه به یاد ماندنی. تمرکز روی کل مسیرهای تصمیم گیری است ، نه فقط پاسخ های یک مرحله ای.

StarPo در دو مرحله در هم تنیده عمل می کند: یک مرحله چرخش که در آن LLM توالی های تعامل کاملی را که با استدلال هدایت می شود ، تولید می کند و یک مرحله بروزرسانی که در آن مدل با استفاده از پاداش های تجمعی نرمال بهینه شده است. این ساختار از یک حلقه یادگیری با ثبات تر و قابل تفسیر در مقایسه با رویکردهای بهینه سازی سیاست استاندارد پشتیبانی می کند.

نویسندگان چارچوب را با استفاده از انواع تنظیم شده مدل های QWEN Alibaba ، از جمله Qwen 1.5 و Qwen 2.5 اجرا و آزمایش کردند. این مدلها به عنوان LLM های پایه برای همه آزمایشات خدمت می کردند و برای وزن های باز و قابلیت های مستحکم پیروی از آنها انتخاب شدند. این تصمیم قابلیت تکرارپذیری و مقایسه های پایه سازگار را در انجام کارهای نمادین فراهم می کند.

در اینجا نحوه انجام این کار و آنچه پیدا کردند آمده است:

تله اکو: چگونه جوایز یادگیری تقویت کننده منجر به از دست دادن استدلال LLM می شود

وانگ چالش اصلی را در یک موضوع X گسترده به اشتراک گذاشته است: چرا آموزش RL شما همیشه از بین می رود؟

به گفته این تیم ، عوامل LLM در ابتدا پاسخ های نمادین و کاملاً فصلی ایجاد می کنند. اما با گذشت زمان ، سیستم های RL تمایل به پاداش میانبر دارند و منجر به رفتارهای تکراری می شوند که عملکرد کلی را کاهش می دهند – الگویی که آنها را “تله اکو” می نامند.

این رگرسیون توسط حلقه های بازخورد هدایت می شود که در آن عبارات یا استراتژی های خاصی در اوایل پاداش بالایی کسب می کنند و اکتشافات بیش از حد و خفه کننده را تشویق می کنند.

وانگ خاطرنشان می کند که این علائم قابل اندازه گیری است: صخره های واریانس پاداش ، سنبله های شیب و آثار استدلال ناپدید می شوند.

محیط های تست راگن دقیقاً درجه سازمانی نیستند

برای مطالعه این رفتارها در یک محیط کنترل شده ، راگن عوامل را در سه محیط نمادین ارزیابی می کند:

راهزن: یک کار یک نوبت و تصادفی که استدلال نمادین ریسک-پاداش را آزمایش می کند.
سوسن: یک معمای چند نوبت و قطعی که شامل تصمیمات برگشت ناپذیر است.
دریاچه یخ زده: یک کار تصادفی و چند چرخش که نیاز به برنامه ریزی تطبیقی دارد.

هر محیط به منظور به حداقل رساندن مقدمات در دنیای واقعی و تمرکز فقط بر روی استراتژی های تصمیم گیری که در طول آموزش توسعه یافته است ، طراحی شده است.

به عنوان مثال ، در محیط راهزن ، به نمایندگان گفته می شود که اسلحه اژدها و ققنوس نمایانگر توزیع پاداش متفاوتی هستند.

آنها به جای اینکه به طور مستقیم به احتمالات گفته شوند ، باید به صورت نمادین استدلال کنند – اژدها را “قدرت” و ققنوس به عنوان “امید” تفسیر کنند – برای پیش بینی نتایج. این نوع تنظیم مدل را برای ایجاد استدلال قابل توضیح و آنالوگ تحت فشار قرار می دهد.

تثبیت یادگیری تقویت با StarPo-S

محققان برای پرداختن به آموزش ، StarPo-S را معرفی کردند ، یک نسخه تثبیت شده از چارچوب اصلی. StarPo-S شامل سه مداخله کلیدی است:

فیلتر نورد مبتنی بر عدم اطمینان: اولویت بندی رولیهایی که عامل عدم اطمینان نتیجه را نشان می دهد.
حذف مجازات KL: اجازه می دهد تا مدل آزادانه از سیاست اصلی خود منحرف شود و رفتارهای جدید را کشف کند.
قطع PPO نامتقارن: تقویت مسیرهای رو به بالا بیش از موارد کم پاداش برای تقویت یادگیری.

این تغییرات فروپاشی آموزش را به تأخیر می اندازد یا از بین می برد و عملکرد را در هر سه کار بهبود می بخشد. همانطور که وانگ بیان کرد: “Starpo-s … در هر 3 کار کار می کند. تسکین می یابد. پاداش بهتر.”

چه چیزی باعث ایجاد یک مدل AI عامل خوب می شود؟

موفقیت آموزش RL نه تنها به معماری بلکه بر کیفیت داده های تولید شده توسط خود عوامل وابسته است. این تیم سه بعد را شناسایی کرد که به طور قابل توجهی بر تمرین تأثیر می گذارد:

تنوع وظیفه: قرار گرفتن در معرض مدل در طیف گسترده ای از سناریوهای اولیه ، تعمیم را بهبود می بخشد.
گرانوری تعامل: اجازه دادن به چندین اقدام در هر نوبت ، برنامه ریزی معنی دار تری را امکان پذیر می کند.
طراوت: نگه داشتن داده های آموزش با خط مشی مدل فعلی از سیگنال های یادگیری منسوخ جلوگیری می کند.

با هم ، این عوامل باعث می شود روند آموزش پایدارتر و مؤثر باشد.

یک سایت نسخه ی نمایشی تعاملی که توسط محققان در مورد GitHub منتشر شده است ، این امر را صریح و مأمور می کند که مأموریت های عامل را به عنوان گفتگوی کامل می چرخاند-از جمله نه تنها اقدامات ، بلکه فرایند فکر گام به گام که پیش از آنها بود.

به عنوان مثال ، در حل یک مشکل ریاضی ، یک عامل ممکن است ابتدا در مورد جداسازی یک متغیر فکر کند ، سپس پاسخی مانند “x = 5” را ارسال کنید. این افکار واسطه ای قابل مشاهده و قابل ردیابی هستند ، که باعث شفافیت در نحوه رسیدن عوامل در تصمیم گیری می شود.

وقتی استدلال تمام شد

در حالی که استدلال صریح باعث بهبود عملکرد در کارهای ساده و تک نوبت مانند راهزن می شود ، تمایل به پوسیدگی در طول آموزش چند نوبت دارد. با وجود استفاده از سوابق و نشانه های ساختاری ، آثار استدلال اغلب کوچک می شوند یا از بین می روند مگر اینکه مستقیماً پاداش می گیرند.

این به محدودیتی در نحوه طراحی پاداش ها به طور معمول اشاره دارد: تمرکز بر روی اتمام کار ممکن است از کیفیت روند پشت آن غفلت کند. این تیم برای ترغیب استدلال بهتر ساختار یافته با مجازات های مبتنی بر فرمت آزمایش کرده است ، اما اذعان می کند که شکل گیری پاداش تصفیه شده بیشتر مورد نیاز است.

راگن به همراه چارچوب های StarPo و StarPo-S خود هم اکنون به عنوان یک پروژه منبع باز در https://github.com/ragen-ai/ragen در دسترس است. با این حال ، هیچ مجوز صریح در مخزن GitHub در زمان نوشتن ذکر نشده است ، که ممکن است استفاده یا توزیع مجدد توسط دیگران را محدود کند.

این سیستم پایه و اساس ارزشمندی را برای علاقه مندان به توسعه عوامل هوش مصنوعی فراهم می کند که بیش از کارهای کامل انجام می دهند – آنها فکر می کنند ، برنامه ریزی می کنند و تکامل می یابند.

از آنجا که هوش مصنوعی به سمت استقلال حرکت می کند ، پروژه هایی مانند راگن به روشنایی آنچه را که برای آموزش مدل هایی که نه تنها از داده ها ، بلکه از عواقب اقدامات خودشان یاد می گیرند ، کمک می کنند.

سوالات برجسته برای پذیرش در دنیای واقعی

در حالی که مقاله راگن نقشه راه فنی مفصلی را ارائه می دهد ، چندین سؤال عملی برای کسانی که به دنبال استفاده از این روش ها در تنظیمات سازمانی هستند ، باقی مانده است. به عنوان مثال ، رویکرد راگن فراتر از کارهای تلطیف شده و نمادین چقدر قابل انتقال است؟ آیا مشاغل برای استفاده از این سیستم در گردش کار مانند پردازش فاکتور یا پشتیبانی مشتری نیاز به طراحی محیط های کاملاً جدید و توابع پاداش دارند؟

یکی دیگر از مناطق مهم مقیاس پذیری است. این مقاله حتی با پیشرفت های ارائه شده توسط StarPo-S ، اذعان می کند که آموزش هنوز در نهایت در افق های طولانی تر فرو می رود. این سؤال را مطرح می کند: آیا یک مسیر نظری یا عملی برای حفظ استدلال در مورد توالی های کار در حال تحول یا مداوم در حال تحول وجود دارد؟

در زمان نوشتن ، هیچ مجوز صریح در مخزن یا مستندات Ragen Github ذکر نشده است و سؤالات باز درباره حقوق استفاده را به نمایش می گذارد.

برای کشف این سؤالات و سایر سؤالات-از جمله اینکه چگونه تصمیم گیرندگان غیر فنی باید پیامدهای راگن را تفسیر کنند-برای بینش بیشتر به همکار وانگ رسیدم. در زمان نوشتن ، پاسخ در انتظار است. در صورت ورود هرگونه نظر ، آنها در پیگیری این مقاله قرار می گیرند یا به عنوان بروزرسانی ادغام می شوند.

راگن نه تنها به عنوان یک کمک فنی بلکه به عنوان یک گام مفهومی به سمت عوامل هوش مصنوعی با استدلال تر و با استدلال ، از آن استفاده می کند. این که آیا این بخشی از شرکت AI Enterprise می شود ، هنوز دیده می شود ، اما بینش آن در مورد پویایی یادگیری عامل در حال حاضر به تعریف مجدد مرز آموزش LLM کمک می کند.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد