برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
مدل های بزرگ زبان (LLM) در استفاده از قابلیت های استدلال پیشرفت های چشمگیری داشته اند. با این حال ، توانایی آنها در مرجع صحیح و استفاده از داده های خارجی – اطلاعاتی که آنها را آموزش نمی دادند – در رابطه با استدلال تا حد زیادی عقب مانده است.
این یک مسئله به ویژه هنگام استفاده از سناریوهای پویا و اطلاعاتی است که نیاز به داده های به روز از موتورهای جستجو دارند.
اما پیشرفتی حاصل شده است: Search-R1 ، تکنیکی که در مقاله ای توسط محققان در دانشگاه ایلینویز در Urbana-Champaign و دانشگاه ماساچوست Amherst ارائه شده است ، LLMS را آموزش می دهد تا نمایش داده های جستجو را ایجاد کند و یکپارچه بازیابی موتور جستجو را در استدلال خود ادغام کند.
با استفاده از شرکت هایی که به دنبال راه هایی برای ادغام این مدل های جدید در برنامه های خود هستند ، تکنیک هایی مانند Search-R1 قول می دهند قابلیت های استدلال جدیدی را که به منابع داده های خارجی متکی هستند ، باز کنند.
چالش ادغام جستجو با LLMS
موتورهای جستجو برای ارائه برنامه های LLM با دانش به روز و خارجی بسیار مهم هستند. دو روش اصلی برای ادغام موتورهای جستجو با LLM ها ، تولید بازیابی (RAG) و استفاده از ابزار هستند که از طریق مهندسی سریع یا تنظیم دقیق مدل اجرا می شوند.
با این حال ، هر دو روش محدودیت هایی دارند که باعث می شود آنها برای مدل های استدلال نامناسب باشند. RAG غالباً با عدم دقت بازیابی تلاش می کند و فاقد توانایی انجام بازیابی چند چرخشی و چند پرکری است که برای انجام کارهای استدلال ضروری است.
استفاده از ابزار مبتنی بر استفاده از ابزار غالباً با تعمیم تلاش می کند ، در حالی که رویکردهای مبتنی بر آموزش نیاز به مجموعه داده های گسترده و حاشیه نویسی از تعامل های جستجو و فصلی دارند که تولید آن در مقیاس دشوار است.
(در آزمایشات خودمان با مدل های استدلال ، دریافتیم که بازیابی اطلاعات یکی از چالش های مهم است.)
جستجو-R1
Search-R1 LLM ها را قادر می سازد با موتورهای جستجو ارتباط برقرار کنند در طول روند استدلال آنها بر خلاف داشتن یک مرحله بازیابی جداگانه.
Search-R1 موتور جستجو را به عنوان بخشی از محیط LLM تعریف می کند و این مدل را قادر می سازد تا نسل توکن خود را با نتایج موتور جستجو یکپارچه ادغام کند.
محققان SEARCH-R1 را برای پشتیبانی از استدلال و جستجوی تکراری طراحی کردند. این مدل برای تولید مجموعه های جداگانه ای از نشانه ها برای بخش های تفکر ، جستجو ، اطلاعات و پاسخ آموزش داده شده است. این بدان معنی است که در طی فرایند استدلال خود (مشخص شده توسط
این ساختار به مدل اجازه می دهد تا چندین بار از موتور جستجو فراخوانی کند زیرا دلیل آن در مورد مشکل است و اطلاعات جدیدی را بدست می آورد (به عنوان مثال زیر مراجعه کنید).
یادگیری تقویت کننده
آموزش LLMS برای Interleeve پرس و جوهای جستجو با زنجیره استدلال خود چالش برانگیز است. برای ساده سازی فرایند ، محققان Search-R1 را برای آموزش مدل از طریق یادگیری تقویت خالص (RL) طراحی کردند ، جایی که این مدل برای کشف استفاده از استدلال و ابزارهای جستجو بدون راهنمایی از داده های تولید شده توسط انسان باقی مانده است.
Search-R1 از “مدل پاداش مبتنی بر نتیجه” استفاده می کند ، که در آن مدل فقط بر اساس صحت پاسخ نهایی ارزیابی می شود. این امر نیاز به ایجاد مدل های پاداش پیچیده را که روند استدلال مدل را تأیید می کنند ، از بین می برد.
این همان رویکردی است که در Deepseek-R1-Zero استفاده می شود ، جایی که به این مدل وظیفه داده شد و فقط بر اساس نتیجه قضاوت می شود. استفاده از RL خالص ، نیاز به ایجاد مجموعه داده های بزرگ از نمونه های حاشیه نویسی دستی (تنظیم دقیق نظارت) را برطرف می کند.
محققان در مقاله خود می نویسند: “Search-R1 را می توان به عنوان پسوند Deepseek-R1 مشاهده کرد ، که در درجه اول با معرفی آموزش RL با جستجو برای تصمیم گیری بازیابی محور ، بر استدلال پارامتری متمرکز است.”
جستجو-r1 در عمل
محققان SEARCH-R1 را با تنظیم دقیق پایه آزمایش کردند و نسخه های QWEN-2.5 و LLAMA-5.2 را آموزش دادند و آنها را در هفت معیار ارزیابی کردند که شامل طیف متنوعی از کارهای استدلال است که نیاز به جستجوی تک چرخش و چند هاپ دارند. آنها SEARCH-R1 را در برابر خطوط مختلف مقایسه کردند: struence استنتاج مستقیم با استدلال زنجیره ای از فکر (COT) ، استنباط با پارچه و تنظیم دقیق برای استفاده از ابزار.
SEARCH-R1 به طور مداوم از روشهای پایه با یک حاشیه منصفانه بهتر عمل می کند. همچنین از مدل های استدلال آموزش داده شده در RL اما بدون بازیابی جستجو بهتر است. محققان می نویسند: “این با انتظارات هماهنگ است ، زیرا ترکیب جستجو در استدلال LLM دسترسی به دانش خارجی مربوطه را بهبود می بخشد و عملکرد کلی را بهبود می بخشد.”

Search-R1 همچنین برای خانواده های مختلف مدل و هر دو نوع پایه و تنظیم شده با دستورالعمل مؤثر است ، نشان می دهد که RL با پاداش مبتنی بر نتیجه می تواند فراتر از سناریوهای استدلال خالص مفید باشد. محققان کد Search-R1 را در GitHub منتشر کرده اند.
توانایی Search-R1 در ایجاد مستقل از نمایش داده های جستجو و ادغام اطلاعات در زمان واقعی در استدلال می تواند پیامدهای قابل توجهی برای برنامه های سازمانی داشته باشد. این می تواند دقت و قابلیت اطمینان سیستم های LLM را در زمینه هایی مانند پشتیبانی مشتری ، مدیریت دانش و تجزیه و تحلیل داده ها افزایش دهد. Search-R1 با فعال کردن LLM ها برای سازگاری پویا با تغییر اطلاعات ، می تواند به شرکت ها کمک کند تا راه حل های هوشمندانه تر و پاسخگوتر را بسازند. این قابلیت می تواند برای برنامه هایی که نیاز به دسترسی به تغییر مداوم داده ها دارند ، بسیار مفید باشد و برای یافتن پاسخ به چندین مرحله نیاز دارد.
همچنین نشان می دهد که ما هنوز پتانسیل کامل الگوی جدید یادگیری تقویت را که از زمان انتشار Deepseek-R1 پدید آمده است ، کشف نکرده ایم.
ارسال پاسخ