چرا سیستم های RAG سازمانی شکست می خورند: Google Study راه حل "زمینه کافی" را معرفی می کند
Source: arXiv

چرا سیستم های RAG سازمانی شکست می خورند: Google Study راه حل “زمینه کافی” را معرفی می کند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


یک مطالعه جدید از محققان Google “زمینه کافی” را معرفی می کند ، یک دیدگاه جدید برای درک و بهبود سیستم های تولید تقویت شده بازیابی (RAG) در مدل های بزرگ زبان (LLMS).

این رویکرد می توان تعیین کرد که آیا یک LLM اطلاعات کافی برای پاسخ به یک پرس و جو به طور دقیق دارد ، یک عامل مهم برای توسعه دهندگان که برنامه های سازمانی در دنیای واقعی را ایجاد می کنند که در آن قابلیت اطمینان و صحت واقعی مهم است.

چالش های مداوم پارچه

سیستم های RAG به سنگ بنای ساخت برنامه های AI واقعی تر و قابل اثبات تبدیل شده اند. با این حال ، این سیستم ها می توانند صفات نامطلوب را به نمایش بگذارند. آنها ممکن است با اطمینان پاسخهای نادرست ارائه دهند حتی اگر با شواهد بازیابی شده ارائه شود ، از اطلاعات بی ربط در متن حواس پرت می شوند ، یا نتوانسته اند به درستی پاسخ ها را از قطعه های متن طولانی استخراج کنند.

محققان در مقاله خود بیان می کنند ، “نتیجه ایده آل برای LLM است که اگر زمینه ارائه شده حاوی اطلاعات کافی برای پاسخ به این سؤال باشد که با دانش پارامتری مدل ترکیب شود ، پاسخ صحیح را در اختیار شما قرار می دهد. در غیر این صورت ، مدل باید از پاسخ دادن و/یا درخواست اطلاعات بیشتر خودداری کند.”

دستیابی به این سناریوی ایده آل نیاز به مدل های ساختمانی دارد که می تواند تعیین کند که آیا زمینه ارائه شده می تواند به یک سؤال به درستی پاسخ دهد و از آن به صورت انتخابی استفاده کند. تلاش های قبلی برای پرداختن به این موضوع ، چگونگی رفتار LLM ها با درجات مختلف اطلاعات را بررسی کرده است. با این حال ، مقاله Google استدلال می کند که “در حالی که به نظر می رسد هدف این است که درک کند که چگونه LLM ها هنگام انجام یا اطلاعات کافی برای پاسخ به پرس و جو ندارند ، کار قبلی نتوانسته است به این سر بپردازد.”

زمینه کافی

برای مقابله با این ، محققان مفهوم “زمینه کافی” را معرفی می کنند. در سطح بالا ، نمونه های ورودی بر اساس اینکه آیا زمینه ارائه شده حاوی اطلاعات کافی برای پاسخ به پرس و جو است طبقه بندی می شوند. این زمینه ها را به دو مورد تقسیم می کند:

زمینه کافی: زمینه دارای تمام اطلاعات لازم برای ارائه پاسخ قطعی است.

زمینه کافی: زمینه فاقد اطلاعات لازم است. این امر می تواند به این دلیل باشد که پرس و جو به دانش تخصصی نیاز دارد که در متن وجود ندارد ، یا اطلاعات ناقص ، بی نتیجه یا متناقض است.

منبع: Arxiv

این تعیین با نگاهی به سؤال و زمینه مرتبط بدون نیاز به پاسخ حقیقت زمین تعیین می شود. این امر برای برنامه های دنیای واقعی که در آن پاسخ های حقیقت زمین به راحتی در هنگام استنتاج در دسترس نیست ، بسیار حیاتی است.

محققان یک “autorater” مبتنی بر LLM را برای خودکارسازی برچسب زدن موارد به عنوان زمینه کافی یا ناکافی تهیه کردند. آنها دریافتند که مدل Gemini 1.5 Pro Google ، با یک مثال واحد (1-shot) ، در طبقه بندی کفایت زمینه ، دستیابی به نمرات F1 بالا و دقت ، بهترین عملکرد را دارد.

در این مقاله آمده است: “در سناریوهای دنیای واقعی ، ما نمی توانیم هنگام ارزیابی عملکرد مدل ، پاسخ نامزد را انتظار داشته باشیم. از این رو ، مطلوب است که از روشی استفاده کنیم که فقط با استفاده از پرس و جو و زمینه کار کند.”

یافته های کلیدی در مورد رفتار LLM با RAG

تجزیه و تحلیل مدل ها و مجموعه داده های مختلف از طریق این لنز با زمینه کافی ، چندین بینش مهم را نشان داد.

همانطور که انتظار می رفت ، مدل ها به طور کلی در صورت کافی بودن زمینه به دقت بالاتری می رسند. با این حال ، حتی با داشتن زمینه کافی ، مدل ها بیشتر از آنچه ممتنع هستند ، توهم می کنند. هنگامی که زمینه کافی نباشد ، وضعیت پیچیده تر می شود ، با مدل هایی که میزان ممتنع بودن هر دو سطح بالاتر را نشان می دهند و برای برخی از مدل ها باعث افزایش توهم می شوند.

جالب اینجاست که ، در حالی که RAG به طور کلی عملکرد کلی را بهبود می بخشد ، زمینه اضافی نیز می تواند توانایی یک مدل را برای پرهیز از پاسخگویی در هنگام عدم اطلاعات کافی کاهش دهد. محققان پیشنهاد می کنند: “این پدیده ممکن است از افزایش اعتماد به نفس مدل به وجود هرگونه اطلاعات متنی ناشی شود و منجر به تمایل بیشتر به توهم و نه ممتنع شدن شود.”

مشاهده مخصوصاً کنجکاو ، توانایی مدل ها گاهی اوقات برای ارائه پاسخ های صحیح حتی اگر زمینه ارائه شده کافی نبوده است. در حالی که یک فرض طبیعی این است که مدل ها از قبل پاسخ از قبل از آموزش خود (دانش پارامتری) را می دانند ، محققان عوامل مؤثر دیگری را یافتند. به عنوان مثال ، زمینه ممکن است به تفکیک پرس و جو یا شکاف های پل در دانش مدل کمک کند ، حتی اگر حاوی جواب کامل نباشد. این توانایی مدل ها در بعضی مواقع حتی با اطلاعات خارجی محدود ، پیامدهای گسترده تری برای طراحی سیستم RAG دارد.

منبع: Arxiv

Cyrus Rashtchian ، همکار نویسنده مطالعه و دانشمند ارشد تحقیقات در Google ، با تأکید بر این که کیفیت پایه LLM بسیار مهم است ، در مورد این موضوع توضیح می دهد. وی به VentureBeat گفت: “برای یک سیستم RAG سازمانی واقعاً خوب ، این مدل باید در معیارهای با و بدون بازیابی ارزیابی شود.” وی اظهار داشت که بازیابی باید به عنوان “تقویت دانش آن” ، و نه تنها منبع حقیقت تلقی شود. او توضیح می دهد: “مدل پایه ،” هنوز هم باید شکاف ها را پر کند ، یا از سرنخ های متن (که توسط دانش قبل از آموزش مطلع می شوند) استفاده کند تا به درستی در مورد متن بازیابی شده استدلال کند. به عنوان مثال ، مدل باید به اندازه کافی بداند که آیا این سؤال زیر مشخص است یا مبهم است ، نه اینکه فقط کورکورانه از متن کپی کند. “

کاهش توهم در سیستم های RAG

محققان با توجه به این یافته که مدل ها ممکن است به جای پرهیز از آن ، به ویژه با RAG در مقایسه با No Rag ، توهم کنند ، تکنیک هایی را برای کاهش این موضوع بررسی کردند.

آنها یک چارچوب جدید “نسل انتخابی” ایجاد کردند. این روش از یک “مدل مداخله” جداگانه و جداگانه استفاده می کند تا تصمیم بگیرد که آیا LLM اصلی باید پاسخ ایجاد کند یا پرهیز کند ، و یک تجارت قابل کنترل بین دقت و پوشش (درصد سؤالات پاسخ داده شده) ارائه می دهد.

این چارچوب را می توان با هر LLM ، از جمله مدل های اختصاصی مانند Gemini و GPT ترکیب کرد. این مطالعه نشان داد که استفاده از زمینه کافی به عنوان یک سیگنال اضافی در این چارچوب منجر به دقت قابل توجهی بالاتر برای نمایش داده شدگان در مدلهای مختلف و مجموعه داده ها می شود. این روش کسری از پاسخ های صحیح را در بین پاسخ های مدل توسط 2-10 ٪ برای مدلهای جمینی ، GPT و GEMMA بهبود بخشید.

برای قرار دادن این پیشرفت 2-10 ٪ در یک دیدگاه تجاری ، رشتچیان نمونه ای مشخص از پشتیبانی مشتری از هوش مصنوعی ارائه می دهد. وی گفت: “شما می توانید مشتری را تصور کنید که آیا می تواند تخفیف داشته باشد.” “در بعضی موارد ، زمینه بازیابی شده اخیر است و به طور خاص یک ارتقاء مداوم را توصیف می کند ، بنابراین مدل می تواند با اطمینان پاسخ دهد. اما در موارد دیگر ، زمینه ممکن است” بی نظیر “باشد ، توصیف تخفیف از چند ماه قبل ، یا شاید این شرایط و شرایط خاص باشد ، یا شاید این شرایط و شرایط خاص را داشته باشد.

این تیم همچنین برای تشویق ممتنع ، مدل های تنظیم دقیق را مورد بررسی قرار داده است. این شامل مدلهای آموزشی در مثالهایی است که در آن جواب به جای “حقیقت اصلی زمین ،” من نمی دانم “جایگزین شده است ، به ویژه برای مواردی که زمینه کافی ندارند. شهود این بود که آموزش صریح در چنین مثالهایی می تواند مدل را به سمت خودداری کند و نه توهم.

نتایج با هم مخلوط شده بودند: مدل های تنظیم شده ریز اغلب از پاسخ های صحیح بالاتری برخوردار بودند اما هنوز هم به طور مکرر توهم می شوند ، غالباً بیشتر از آنکه ممتنع باشند. این مقاله نتیجه می گیرد که اگرچه تنظیم دقیق ممکن است به شما کمک کند ، “کار بیشتری برای تهیه یک استراتژی قابل اعتماد لازم است که می تواند این اهداف را متعادل کند.”

استفاده از زمینه کافی برای سیستم های RAG در دنیای واقعی

برای تیم های سازمانی که به دنبال استفاده از این بینش ها در سیستم های خاردار خود هستند ، مانند آنهایی که از پایگاه های دانش داخلی یا پشتیبانی مشتری پشتیبانی می کنند ، رشتچیان یک رویکرد عملی را تشریح می کند. وی پیشنهاد می کند ابتدا مجموعه ای از جفت های پرس و جو را جمع آوری کند که نشان دهنده نوع نمونه هایی است که مدل در تولید مشاهده می کند. در مرحله بعد ، از یک autorater مبتنی بر LLM استفاده کنید تا هر نمونه را به عنوان زمینه کافی یا کافی نشان دهید.

رشتچیان گفت: “این در حال حاضر تخمین خوبی از ٪ از زمینه کافی خواهد داشت.” “اگر کمتر از 80-90 ٪ باشد ، احتمالاً فضای زیادی برای بهبود در مورد بازیابی یا پایه دانش وجود دارد-این یک علامت قابل مشاهده خوب است.”

راشتچیان به تیمها توصیه می کند که “پاسخ های مدل را بر اساس نمونه هایی با زمینه کافی در مقابل ناکافی طبقه بندی کنند.” با بررسی معیارهای این دو مجموعه داده جداگانه ، تیم ها می توانند تفاوت های ظریف عملکرد را بهتر درک کنند.

وی خاطرنشان می کند: “به عنوان مثال ، ما دیدیم که مدلها بیشتر در صورت عدم وجود زمینه کافی ، پاسخ نادرست (با توجه به حقیقت زمین) ارائه می دهند. این یکی دیگر از علائم قابل مشاهده است.”

در حالی که یک autorater مبتنی بر LLM دقت بالایی را نشان می دهد ، تیم های سازمانی ممکن است از هزینه محاسباتی اضافی تعجب کنند. راشتچیان توضیح داد که سربار را می توان برای اهداف تشخیصی مدیریت کرد.

وی گفت: “من می گویم اجرای یک autorater مبتنی بر LLM در یک مجموعه آزمایشی کوچک (مثلاً 500-1000 نمونه) باید نسبتاً ارزان باشد ، و این می تواند” آفلاین “انجام شود ، بنابراین هیچ نگرانی در مورد میزان زمان لازم وجود ندارد.” وی برای برنامه های کاربردی در زمان واقعی ، اعتراف می کند ، “بهتر است از یک مدل اکتشافی یا حداقل یک مدل کوچکتر استفاده کنیم.” به گفته رشتچیان ، غذای مهم این است که “مهندسان باید از مؤلفه بازیابی خود به چیزی فراتر از نمرات شباهت و غیره نگاه کنند. داشتن یک سیگنال اضافی ، از LLM یا اکتشافی ، می تواند به بینش های جدید منجر شود.”