بررسی واقعیت RAG: چارچوب جدید منبع باز به شرکتها اجازه می دهد تا عملکرد AI را از نظر علمی اندازه گیری کنند
بررسی واقعیت RAG: چارچوب جدید منبع باز به شرکتها اجازه می دهد تا عملکرد AI را از نظر علمی اندازه گیری کنند

بررسی واقعیت RAG: چارچوب جدید منبع باز به شرکتها اجازه می دهد تا عملکرد AI را از نظر علمی اندازه گیری کنند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


شرکت ها در حال صرف وقت و پول برای ایجاد سیستم های بازیابی-آگوژ (RAG) هستند. هدف این است که یک سیستم هوش مصنوعی دقیق شرکت داشته باشیم ، اما آیا این سیستم ها واقعاً کار می کنند؟

عدم توانایی در اندازه گیری عینی اینکه آیا سیستم های RAG در واقع کار می کنند یک نقطه کور بحرانی است. یکی از راه حل های بالقوه برای این چالش امروز با اولین چارچوب منبع باز Rag Eval آغاز می شود. این چارچوب جدید توسط ارائه دهنده پلتفرم Rag Rag Vectara که با استاد جیمی لین و تیم تحقیقاتی وی در دانشگاه واترلو همکاری می کنند ، تهیه شده است.

Open Rag Eval ، رویکرد مقایسه ای را در حال حاضر بهتر از آن به یک روش ارزیابی دقیق و قابل تکرار تبدیل می کند که می تواند دقت بازیابی ، کیفیت تولید و نرخ توهم را در سراسر استقرار RAG شرکت اندازه گیری کند.

این چارچوب کیفیت پاسخ را با استفاده از دو دسته متریک اصلی ارزیابی می کند: معیارهای بازیابی و معیارهای تولید. این اجازه می دهد تا سازمانها این ارزیابی را در هر خط لوله RAG ، اعم از پلت فرم Vectara یا راه حل های سفارشی ، اعمال کنند. برای تصمیم گیرندگان فنی ، این بدان معنی است که در نهایت داشتن یک روش سیستماتیک برای مشخص کردن دقیقاً کدام یک از مؤلفه های پیاده سازی RAG آنها به بهینه سازی نیاز دارند.

جیمی لین ، استاد دانشگاه واترلو ، در مصاحبه اختصاصی به VentureBeat گفت: “اگر نمی توانید آن را اندازه گیری کنید ، نمی توانید آن را بهبود بخشید.” “در بازیابی اطلاعات و بردارهای متراکم ، می توانید چیزهای زیادی را اندازه گیری کنید ، NDCG (سود تجمعی با تخفیف عادی) ، دقت ، به یاد بیاورید … اما وقتی به جواب درست رسیدیم ، ما به هیچ وجه نبودیم ، به همین دلیل ما در این مسیر شروع کردیم.”

چرا ارزیابی RAG به تنگنا برای پذیرش AI Enterprise تبدیل شده است

Vectara یک پیشگام اولیه در فضای پارچه بود. این شرکت در اکتبر سال 2022 ، قبل از اینکه چتپپ نام خانوادگی باشد ، راه اندازی شد. Vectara در واقع فناوری را که در ابتدا از آن به عنوان AI زمینی در ماه مه 2023 ، به عنوان راهی برای محدود کردن توهم ، قبل از استفاده از مخفف RAG استفاده می کرد ، آغاز کرد.

در طی چند ماه گذشته ، برای بسیاری از شرکت ها ، اجرای RAG به طور فزاینده ای پیچیده و ارزیابی شده است. یک چالش مهم این است که سازمانها فراتر از سؤال ساده به سیستم های عامل چند مرحله ای در حال حرکت هستند.

Am Awadallah ، مدیرعامل Vectara و Cofounder به VentureBeat گفت: “در دنیای عامل ، ارزیابی بسیار مهم است ، زیرا این عوامل هوش مصنوعی تمایل به چند مرحله ای دارند.” “اگر مرحله اول را توهم نمی کنید ، آن ترکیبات با مرحله دوم ، ترکیبات با مرحله سوم ، و در پایان خط لوله به عمل اشتباه یا پاسخ می پردازید.”

چگونه Rag Rag Eval کار می کند: شکستن جعبه سیاه به اجزای قابل اندازه گیری

چارچوب ارزیابی RAG باز از طریق یک روش مبتنی بر Nugget به ارزیابی می پردازد.

لین توضیح داد که رویکرد nugget پاسخ ها را به حقایق اساسی تقسیم می کند ، سپس اندازه گیری می کند که چگونه یک سیستم به طور مؤثر دستگیره ها را ضبط می کند.

این چارچوب سیستم های RAG را در چهار معیار خاص ارزیابی می کند:

  1. تشخیص توهم – اندازه گیری میزان تولید محتوای حاوی اطلاعات ساختگی که توسط اسناد منبع پشتیبانی نمی شوند.
  2. استناد – تعیین می کند که استناد به خوبی در پاسخ توسط اسناد منبع پشتیبانی می شود.
  3. نای – وجود nuggets اطلاعات ضروری را از اسناد منبع در پاسخ های تولید شده ارزیابی می کند.
  4. چتر (روش یکپارچه برای ارزیابی بازیابی معیار با ارزیابی LLM) – یک روش جامع برای ارزیابی عملکرد کلی بازیابی

نکته مهم این است که این چارچوب کل خط لوله RAG را به انتهای آن ارزیابی می کند ، و در مورد چگونگی تعامل مدل های تعبیه ، سیستم های بازیابی ، استراتژی های جمع آوری و LLM ها برای تولید خروجی های نهایی ، ارائه می دهد.

نوآوری فنی: اتوماسیون از طریق LLMS

آنچه که از نظر فنی Open RAG را از نظر فنی قابل توجه می کند این است که چگونه از مدل های بزرگ زبان برای خودکارسازی آنچه که قبلاً یک فرآیند ارزیابی دستی و فشرده کار بود ، استفاده می کند.

لین توضیح داد: “وضعیت هنر قبل از شروع ، در مقابل مقایسه های راست باقی مانده بود.” “بنابراین این است ، آیا شما سمت چپ را بهتر دوست دارید؟ آیا شما مناسب را بهتر دوست دارید؟ یا آنها هر دو خوب هستند ، یا هر دو بد هستند؟ این یک نوع راه برای انجام کارها بود.”

لین خاطرنشان کرد: رویکرد ارزیابی مبتنی بر ناگت جدید نیست ، اما اتوماسیون آن از طریق LLMS نشان دهنده دستیابی به موفقیت است.

این چارچوب از پایتون با مهندسی سریع پیشرفته برای دریافت LLMS برای انجام وظایف ارزیابی مانند شناسایی ناگت ها و ارزیابی توهم استفاده می کند ، همه در یک خط لوله ارزیابی ساختاری پیچیده شده است.

چشم انداز رقابتی: چگونه RAG EVAL در اکوسیستم ارزیابی قرار می گیرد

از آنجا که استفاده از شرکت از هوش مصنوعی همچنان بالغ می شود ، تعداد فزاینده ای از چارچوب های ارزیابی وجود دارد. هفته گذشته ، بغل کردن چهره Yourbench را برای آزمایش مدل ها در برابر داده های داخلی شرکت راه اندازی کرد. در پایان ژانویه ، گالیله فناوری ارزیابی عامل خود را راه اندازی کرد.

EVAL RAG OPEN متفاوت است از آنجا که به شدت در خط لوله Rag متمرکز شده است ، نه فقط خروجی های LLM .. این چارچوب همچنین دارای یک پایه دانشگاهی قوی است و به جای روش های Ad-Hoc بر روی علم بازیابی اطلاعات ایجاد شده ساخته شده است.

این چارچوب بر اساس سهم قبلی Vectara در جامعه هوش مصنوعی منبع باز ، از جمله مدل ارزیابی توهم هیوز (HHEM) ، که بیش از 3.5 میلیون بار در بغل کردن صورت بارگیری شده است ، ساخته شده است و به یک معیار استاندارد برای تشخیص توهم تبدیل شده است.

Awadallah تأکید کرد: “ما آن را چارچوب Vectara Eval نمی نامیم ، ما آن را چارچوب Eval Rag Eval می نامیم زیرا ما واقعاً می خواهیم شرکت های دیگر و سایر موسسات برای کمک به ساخت این کار کمک کنند.” “ما برای همه ما به چیزی شبیه به بازار احتیاج داریم تا این سیستم ها به روش صحیح تکامل یابد.”

ارزیابی RAG باز در دنیای واقعی چیست

در حالی که هنوز یک تلاش اولیه است ، Vectara حداقل در حال حاضر چندین کاربر علاقه مند به استفاده از چارچوب Eval Rag Open است.

در میان آنها جف هومل ، SVP از محصول و فناوری در شرکت املاک و مستغلات در هر نقطه. هومل انتظار دارد که همکاری با Vectara به او اجازه دهد روند ارزیابی RAG شرکت خود را ساده تر کند.

هومل خاطرنشان كرد كه مقیاس گذاری در استقرار RAG وی چالش های مهمی را در مورد پیچیدگی زیرساخت ها ، سرعت تکرار و افزایش هزینه ها ایجاد کرده است.

هومل گفت: “دانستن معیارها و انتظارات از نظر عملکرد و صحت به تیم ما کمک می کند تا در محاسبات مقیاس پذیر ما پیش بینی کننده باشد.” “صادقانه بگویم ، یک چارچوب برای تنظیم معیارهای این ویژگی ها وجود نداشت ؛ ما به شدت به بازخورد کاربر اعتماد داشتیم ، که گاهی اوقات عینی بود و به موفقیت در مقیاس ترجمه می شد.”

از اندازه گیری تا بهینه سازی: برنامه های عملی برای مجریان RAG

برای تصمیم گیرندگان فنی ، RAG Eval می تواند به سؤالات مهم در مورد استقرار و پیکربندی RAG کمک کند:

  • آیا برای استفاده از تکه های ثابت یا تکه معنایی استفاده کنید
  • آیا از جستجوی ترکیبی یا بردار استفاده کنید ، و چه مقادیری را برای Lambda در جستجوی ترکیبی استفاده کنید
  • از کدام LLM و نحوه بهینه سازی RAG های RAG استفاده کنید
  • از چه آستانه هایی برای تشخیص و تصحیح توهم استفاده می شود

در عمل ، سازمان ها می توانند نمرات پایه را برای سیستم های RAG موجود خود ایجاد کنند ، تغییرات پیکربندی هدفمند را ایجاد کنند و پیشرفت حاصل را اندازه گیری کنند. این رویکرد تکراری جایگزین حدس و گمان با بهینه سازی داده محور است.

در حالی که این نسخه اولیه بر اندازه گیری متمرکز است ، نقشه راه شامل قابلیت های بهینه سازی است که می تواند به طور خودکار بهبود پیکربندی را بر اساس نتایج ارزیابی نشان دهد. نسخه های آینده همچنین ممکن است معیارهای هزینه ای را برای کمک به سازمانها در عملکرد در برابر هزینه های عملیاتی داشته باشد.

برای شرکت هایی که به دنبال رهبری در تصویب AI هستند ، باز کردن RAG RAG به این معنی است که آنها می توانند به جای تکیه بر ارزیابی های ذهنی یا ادعاهای فروشنده ، یک رویکرد علمی برای ارزیابی را پیاده سازی کنند. برای کسانی که در اوایل سفر هوش مصنوعی خود هستند ، از ابتدا یک روش ساختاری برای نزدیک شدن به ارزیابی فراهم می کند ، که به طور بالقوه از ساخت زیرساخت های خزدار خود جلوگیری می کند.