Swirl: پرونده تجاری برای هوش مصنوعی که فکر می کند بهترین حل کننده های شما است
SWiRL data generation process Credit: arXiv

Swirl: پرونده تجاری برای هوش مصنوعی که فکر می کند بهترین حل کننده های شما است

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


محققان دانشگاه استنفورد و Google DeepMind از یادگیری تقویت کننده گام به گام (SWIRL) رونمایی کرده اند ، تکنیکی که برای تقویت توانایی مدل های بزرگ زبان (LLM) برای مقابله با کارهای پیچیده ای که نیاز به استدلال چند مرحله ای و استفاده از ابزار دارند ، طراحی شده است.

از آنجا که علاقه به عوامل هوش مصنوعی و استفاده از ابزار LLM همچنان در حال افزایش است ، این تکنیک می تواند مزایای قابل توجهی را برای شرکت هایی که به دنبال ادغام مدل های استدلال در برنامه های کاربردی و گردش کار خود هستند ، ارائه دهد.

چالش مشکلات چند مرحله ای

برنامه های سازمانی در دنیای واقعی اغلب شامل فرآیندهای چند مرحله ای هستند. به عنوان مثال ، برنامه ریزی یک کمپین بازاریابی پیچیده ممکن است شامل تحقیقات بازار ، تجزیه و تحلیل داده های داخلی ، محاسبه بودجه و بررسی بلیط های پشتیبانی مشتری باشد. این امر به جستجوهای آنلاین ، دسترسی به پایگاه داده های داخلی و کد در حال اجرا نیاز دارد.

روشهای یادگیری تقویت کننده سنتی (RL) که برای تنظیم دقیق LLM ها استفاده می شود ، مانند یادگیری تقویت از بازخورد انسانی (RLHF) یا RL از بازخورد AI (RLAIF) ، به طور معمول روی بهینه سازی مدل ها برای کارهای استدلال تک مرحله ای تمرکز می کنند.

نویسندگان اصلی مقاله Swirl ، آنا گلدی ، دانشمند تحقیق در Google Deepmind و Azalia Mirhosseini ، استادیار علوم کامپیوتر در دانشگاه استنفورد ، معتقدند که روش های آموزش فعلی LLM برای کارهای استدلال چند مرحله ای مناسب نیست که برنامه های کاربردی در دنیای واقعی به آن احتیاج دارند.

آنها گفتند: “LLM ها که از طریق روشهای سنتی آموزش داده می شوند ، به طور معمول با برنامه ریزی چند مرحله ای و ادغام ابزار مبارزه می کنند ، به این معنی که آنها در انجام کارهایی که نیاز به بازیابی و سنتز اسناد از منابع متعدد دارند (به عنوان مثال ، نوشتن گزارش تجاری) یا چندین مرحله از استدلال و محاسبه حساب (به عنوان مثال ، تهیه خلاصه مالی) مشکل دارند.”

یادگیری تقویت مرحله ای (Swirl)

Swirl این چالش چند مرحله ای را از طریق ترکیبی از تولید داده های مصنوعی و یک رویکرد تخصصی RL که مدل ها را در کل توالی اقدامات آموزش می دهد ، مقابله می کند.

همانطور که محققان در مقاله خود بیان می کنند ، “هدف ما این است که به مدل آموزش دهید که چگونه مشکلات پیچیده را به دنباله ای از زیرنویس های قابل کنترل تر تجزیه کنیم ، چه زمانی این ابزار را فراخوانی می کنیم ، چگونه می توان یک تماس را به ابزار تدوین کرد ، چه زمانی از نتایج این نمایش داده ها برای پاسخ به سؤال استفاده کنیم ، و چگونه می توان به طور مؤثر سنتز یافته های آن را سنتز کرد.”

Swirl از یک روش دو مرحله ای استفاده می کند. اول ، مقادیر زیادی استدلال چند مرحله ای و داده های استفاده از ابزار را تولید و فیلتر می کند. دوم ، از یک الگوریتم RL گام به گام برای بهینه سازی LLM پایه با استفاده از این مسیرهای تولید شده استفاده می کند.

در این مقاله آمده است: “این رویکرد از مزیت عملی کلیدی برخوردار است که ما می توانیم به سرعت حجم زیادی از داده های آموزش چند مرحله ای را از طریق تماس های موازی ایجاد کنیم تا از روند کار با استفاده از ابزار آهسته استفاده کنیم.” “علاوه بر این ، این فرایند آفلاین به دلیل داشتن یک مجموعه داده ثابت ، تکرارپذیری بیشتری را امکان پذیر می کند.”

تولید داده های آموزشی

اعتبار فرآیند تولید داده Swirl: Arxiv

مرحله اول شامل ایجاد چرخش داده های مصنوعی از آن است. LLM مانند موتور جستجو یا ماشین حساب به یک ابزار مربوطه دسترسی پیدا می کند. سپس این مدل به طور تکراری از ایجاد “مسیر” ، دنباله ای از مراحل برای حل یک مشکل معین استفاده می شود. در هر مرحله ، این مدل می تواند استدلال داخلی (“زنجیره اندیشه آن”) ایجاد کند ، یک ابزار را صدا کند یا پاسخ نهایی را تولید کند. اگر این ابزار را فراخوانی کند ، پرس و جو استخراج می شود ، اجرا می شود (به عنوان مثال ، یک جستجو انجام می شود) ، و نتیجه برای مرحله بعدی دوباره به متن مدل تغذیه می شود. این تا زمانی که مدل پاسخ نهایی را ارائه می دهد ادامه می یابد.

هر مسیر کامل ، از اعلان اولیه تا پاسخ نهایی ، سپس به چندین مسیر با هم همپوشانی تقسیم می شود. هر مسیر زیر فرآیند فرآیند را تا یک عمل خاص نشان می دهد ، و نمای گرانول از استدلال گام به گام مدل را ارائه می دهد. با استفاده از این روش ، این تیم مجموعه داده های بزرگی را بر اساس سؤالات مربوط به سؤال چند هاپ پاسخ (HOTPOTQA) و معیارهای حل مسئله ریاضی (GSM8K) گردآوری کرده و ده ها هزار مسیر را ایجاد می کند.

محققان چهار استراتژی مختلف فیلتر کردن داده ها را مورد بررسی قرار دادند: بدون فیلتر ، فیلتر کردن فقط بر اساس صحت پاسخ نهایی (فیلتر نتیجه) ، فیلتر بر اساس استدلال داوری هر مرحله جداگانه (فیلتر فرآیند) و فیلتر بر اساس هر دو فرآیند و نتیجه.

بسیاری از رویکردهای استاندارد ، مانند تنظیم دقیق (SFT) تحت نظارت ، به شدت به “برچسب های طلایی” (پاسخ های صحیح کامل و از پیش تعریف شده) متکی هستند و اغلب داده هایی را که منجر به پاسخ نهایی صحیح نمی شود ، دور می کنند. رویکردهای RL محبوب اخیر ، مانند موردی که در Deepseek-R1 به کار رفته است ، همچنین از پاداش های مبتنی بر نتیجه برای آموزش مدل استفاده می کند.

در مقابل ، Swirl با استفاده از داده های فیلتر شده فرآیند بهترین نتایج خود را بدست آورد. این بدان معناست که داده ها شامل مسیرهایی است که با توجه به متن قبلی ، هر مرحله استدلال یا تماس با ابزار منطقی تلقی می شد ، حتی اگر پاسخ نهایی اشتباه باشد.

محققان دریافتند که Swirl می تواند “حتی از مسیرهایی که به پاسخ های نهایی نادرست ختم می شوند ، بیاموزند. در واقع ، ما با در نظر گرفتن داده های فیلتر شده فرآیند ، بدون در نظر گرفتن صحت نتیجه ، به بهترین نتیجه می رسیم.”

آموزش LLMS با چرخش

اعتبار فرآیند آموزش چرخش: arxiv

در مرحله دوم ، Swirl از یادگیری تقویت کننده برای آموزش LLM پایه در مسیرهای مصنوعی تولید شده استفاده می کند. در هر مرحله در یک مسیر ، مدل برای پیش بینی عمل مناسب بعدی (یک مرحله استدلال میانی ، یک تماس ابزار یا پاسخ نهایی) بر اساس زمینه قبلی بهینه شده است.

LLM در هر مرحله با یک مدل پاداش تولیدی جداگانه بازخورد دریافت می کند ، که با توجه به متن تا آن نقطه ، عملکرد تولید شده مدل را ارزیابی می کند.

محققان می نویسند: “پارادایم گام به گام و گام به گام ما ، این مدل را قادر می سازد تا هر دو تصمیم گیری محلی (پیش بینی مرحله بعدی) و بهینه سازی مسیر جهانی (تولید پاسخ نهایی) را در حالی که با بازخورد فوری در مورد صداقت هر پیش بینی هدایت می شود ، بیاموزد.”

چرخش در طول اعتبار استنتاج: Arxiv

در زمان استنتاج ، یک مدل آموزش دیده با همان روشی تکراری کار می کند. این سریع دریافت می کند و در پاسخ متن ایجاد می کند. اگر این یک تماس ابزار (مانند یک پرس و جو جستجو یا بیان ریاضی) را خروجی کند ، سیستم آن را تجزیه می کند ، ابزار را اجرا می کند و نتیجه را دوباره به پنجره متن مدل تغذیه می کند. سپس این مدل تولید را ادامه می دهد ، به طور بالقوه تماس های بیشتر ابزار را انجام می دهد ، تا زمانی که پاسخ نهایی را صادر کند یا به تعداد مراحل برسد.

گلدی و میراسینی گفت: “با آموزش مدل برای انجام اقدامات معقول در هر لحظه از زمان (و انجام این کار به روشی منسجم و بالقوه قابل توضیح) ، ما به ضعف اصلی LLM های سنتی ، یعنی شستشوی آنها در مقابل کارهای پیچیده و چند مرحله ای ، که در آن احتمال موفقیت در طول مسیر با طول مسیر فرو می رود ، می پردازیم.” “هوش مصنوعی سازمانی مفید و قوی به ناچار نیاز به ادغام طیف گسترده ای از ابزارهای مختلف خواهد داشت و آنها را در توالی های پیچیده زنجیر می کند.”

چرخش در عمل

تیم استنفورد و Google DeepMind Swirl را در چندین کار با پاسخ به سؤال چند مرحله ای و استدلال ریاضی ارزیابی کردند. در مقایسه با مدل های پایه ، Swirl بهبود دقت نسبی قابل توجهی را نشان داد ، از 11 ٪ تا بیش از 21 ٪ در مجموعه داده هایی مانند GSM8K ، HotPotqa ، Musique و BeerQA.

این آزمایشات تأیید کرد که آموزش یک مدل GEMMA 2-27B با چرخش بر روی داده های فیلتر شده فرآیند ، بهترین نتیجه را به دست می آورد ، از مدل های بهتر آموزش داده شده بر روی داده های فیلتر شده نتیجه یا استفاده از SFT سنتی. این نشان می دهد که Swirl فرایند استدلال اساسی را به طور مؤثرتر می آموزد ، نه اینکه فقط مسیرهایی را برای اصلاح پاسخ ها به خاطر بسپارد ، که به عملکرد بر روی مشکلات غیب کمک می کند.

مهمتر از همه ، Swirl قابلیت های عمومی سازی قوی را به نمایش گذاشت. به عنوان مثال ، آموزش یک مدل با استفاده از چرخش در نمونه های پاسخ به متن مبتنی بر متن ، عملکرد آن را در کارهای استدلال ریاضی بهبود می بخشد ، حتی اگر این مدل به صراحت در مورد مشکلات ریاضی آموزش داده نشده باشد.

این قابلیت انتقال در وظایف مختلف و انواع ابزار بسیار ارزشمند است زیرا انفجار برنامه های عامل برای مدل های زبان وجود دارد و روش هایی که در بین مجموعه داده ها و وظایف تعمیم می یابد آسانتر ، ارزان تر و سریعتر برای سازگاری با محیط های جدید خواهد بود.

گلدی و میرتوزینی گفت: “تعمیم Swirl در حوزه هایی که ما کاوش کردیم کاملاً قوی به نظر می رسد ، اما جالب است که این مورد را در مناطق دیگر مانند برنامه نویسی آزمایش کنیم.” “یافته های ما نشان می دهد که یک مدل هوش مصنوعی سازمانی که روی یک کار اصلی با استفاده از Swirl آموزش دیده است ، احتمالاً عملکردهای قابل توجهی را از طرف دیگر ، به ظاهر نامربوط و بدون تنظیم دقیق کار نشان می دهد. Swirl در هنگام استفاده از مدل های بزرگتر (یعنی قدرتمندتر) بهتر تعمیم می یابد ، نشان می دهد که این تکنیک ممکن است حتی در آینده با افزایش قابلیت های پایه مؤثر باشد.”