بزرگتر همیشه بهتر نیست: بررسی پرونده تجاری برای LLM های چند میلیون Token

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

مسابقه برای گسترش مدلهای بزرگ زبان (LLM) فراتر از آستانه میلیون ونک ، بحث و گفتگو شدید در جامعه هوش مصنوعی را نادیده گرفته است. مدلهایی مانند Minimax-Text-01 دارای ظرفیت 4 میلیون-تکنیک هستند و Gemini 1.5 Pro می تواند تا 2 میلیون توکن را همزمان پردازش کند. آنها اکنون نوید برنامه های تغییر بازی را می دهند و می توانند در یک تماس استنتاج واحد ، کل قسمت های کد ، قراردادهای حقوقی یا مقالات تحقیقاتی را تجزیه و تحلیل کنند.

در هسته اصلی این بحث طول زمینه است – میزان متن یک مدل AI می تواند پردازش کند و همچنین یادآوری کردن یکباره یک پنجره زمینه طولانی تر به یک مدل یادگیری ماشین (ML) اجازه می دهد تا اطلاعات بسیار بیشتری را در یک درخواست واحد انجام دهد و نیاز به اسناد و مدارک را به زیر مجموعه ها یا تقسیم مکالمات کاهش می دهد. برای زمینه ، مدلی با ظرفیت 4 میلیون ونک می تواند 10،000 صفحه کتاب را به یکباره هضم کند.

از نظر تئوری ، این باید به معنای درک بهتر و استدلال پیچیده تر باشد. اما آیا این ویندوزهای زمینه عظیم به ارزش تجاری در دنیای واقعی ترجمه می شوند؟

از آنجا که شرکت ها هزینه های مقیاس گذاری زیرساخت ها را در برابر سود احتمالی در بهره وری و دقت وزن می کنند ، این سؤال باقی می ماند: آیا ما مرزهای جدید را در استدلال هوش مصنوعی باز می کنیم یا به سادگی محدودیت های حافظه توکن را بدون پیشرفت های معنی دار کشش می دهیم؟ در این مقاله به بررسی معاملات فنی و اقتصادی ، چالش های معیار و در حال تحول در گردش کار در شکل گیری آینده LLM های بزرگ با متن می پردازیم.

ظهور مدلهای پنجره زمینه بزرگ: اعتیاد به مواد مخدره یا ارزش واقعی؟

چرا شرکت های هوش مصنوعی برای گسترش طول زمینه در حال مسابقه هستند

رهبران هوش مصنوعی مانند Openai ، Google DeepMind و Minimax در یک مسابقه تسلیحاتی برای گسترش طول زمینه قرار دارند ، که برابر با میزان متن است که یک مدل AI می تواند در یک حرکت پردازش کند. قول؟ درک عمیق تر ، توهم کمتری و تعامل بدون درز.

برای شرکت ها ، این به معنای هوش مصنوعی است که می تواند کل قراردادها را تجزیه و تحلیل کند ، با استفاده از کد های بزرگ اشکال زدایی کند یا گزارش های طولانی را بدون شکستن زمینه خلاصه کند. امید این است که از بین بردن راه حل های مانند نسل یا بازیابی (RAG) می تواند گردش کار هوش مصنوعی را نرم تر و کارآمدتر کند.

حل مشکل “سوزن در یک-Haystack”

مشکل سوزن در Haystack به دشواری هوش مصنوعی در شناسایی اطلاعات مهم (سوزن) پنهان در مجموعه داده های عظیم (Haystack) اشاره دارد. LLM ها اغلب جزئیات کلیدی را از دست می دهند و منجر به ناکارآمدی در:

جستجو و بازیابی دانش: دستیاران هوش مصنوعی برای استخراج مهمترین حقایق از مخازن گسترده اسناد تلاش می کنند.
حقوقی و انطباق: وکلا باید وابستگی بند را در قراردادهای طولانی ردیابی کنند.
تجزیه و تحلیل شرکت: تحلیلگران مالی خطر از بین بردن بینش های مهم در گزارش ها را از دست می دهند.

ویندوز زمینه های بزرگتر به مدلهای کمک می کند تا اطلاعات بیشتری را حفظ کنند و به طور بالقوه توهم را کاهش دهند. آنها در بهبود دقت کمک می کنند و همچنین فعال می شوند:

بررسی های مربوط به مستندات متقابل: یک سریع 256K-Token می تواند یک کتابچه راهنمای کل سیاست را در برابر قوانین جدید تجزیه و تحلیل کند.
سنتز ادبیات پزشکی: محققان از ویندوز 128K+ برای مقایسه نتایج آزمایش دارو در طی چند دهه مطالعات استفاده می کنند.
توسعه نرم افزار: اشکال زدایی هنگامی بهبود می یابد که هوش مصنوعی می تواند میلیون ها خط کد را بدون از دست دادن وابستگی ها اسکن کند.
تحقیقات مالی: تحلیلگران می توانند گزارش های درآمد کامل و داده های بازار را در یک پرس و جو مورد تجزیه و تحلیل قرار دهند.
پشتیبانی مشتری: Chatbots با حافظه طولانی تر تعامل بیشتر در زمینه متن را ارائه می دهد.

افزایش پنجره زمینه همچنین به مدل کمک می کند تا جزئیات مربوطه را بهتر ارجاع داده و احتمال تولید اطلاعات نادرست یا ساختگی را کاهش می دهد. یک مطالعه 2024 استنفورد نشان داد که مدل های 128K-Token میزان توهم را 18 ٪ در مقایسه با سیستم های RAG در هنگام تجزیه و تحلیل توافق های ادغام کاهش می دهد.

با این حال ، پذیرندگان اولیه برخی از چالش ها را گزارش کرده اند: تحقیقات JPMorgan Chase نشان می دهد که چگونه مدل ها در حدود 75 ٪ از زمینه خود عملکرد ضعیفی دارند ، با عملکرد در کارهای پیچیده مالی در حال فروپاشی به صفر فراتر از 32K. مدل ها هنوز هم به طور گسترده ای با فراخوان دوربرد مبارزه می کنند ، که اغلب داده های اخیر را در بینش های عمیق تر اولویت بندی می کنند.

این سؤالاتی را ایجاد می کند: آیا یک پنجره 4 میلیون نفری واقعاً استدلال را تقویت می کند ، یا این فقط یک گسترش هزینه ای از حافظه است؟ در واقع چه مقدار از این ورودی وسیع از چه مقدار استفاده می کند؟ و آیا این مزایا از افزایش هزینه های محاسباتی فراتر می رود؟

هزینه در مقابل عملکرد: RAG در مقابل اعلان های بزرگ: کدام گزینه برنده می شود؟

معاملات اقتصادی استفاده از RAG

RAG قدرت LLM ها را با یک سیستم بازیابی ترکیب می کند تا اطلاعات مربوطه را از یک پایگاه داده خارجی یا فروشگاه اسناد بدست آورد. این به مدل اجازه می دهد تا پاسخ هایی را بر اساس دانش از قبل موجود و داده های بازیابی پویا ایجاد کند.

از آنجا که شرکت ها هوش مصنوعی را برای کارهای پیچیده اتخاذ می کنند ، با یک تصمیم کلیدی روبرو می شوند: از ویندوزهای بزرگ با ویندوزهای بزرگ استفاده کنید ، یا به RAG تکیه کنید تا اطلاعات مربوطه را به صورت پویا بدست آورید.

پیشبرد های بزرگ: مدل هایی با پنجره های بزرگ همه چیز را در یک پاس واحد پردازش می کنند و نیاز به حفظ سیستم های بازیابی خارجی و گرفتن بینش های متقابل را کاهش می دهند. با این حال ، این رویکرد از نظر محاسباتی گران است ، با هزینه های استنتاج بالاتر و نیازهای حافظه.
RAG: به جای پردازش کل سند به طور همزمان ، RAG قبل از ایجاد پاسخ ، فقط مهمترین بخش ها را بازیابی می کند. این باعث کاهش استفاده و هزینه های نشانه می شود و آن را برای برنامه های دنیای واقعی مقیاس پذیر تر می کند.

مقایسه هزینه های استنتاج هوش مصنوعی: بازیابی چند مرحله ای در مقابل سوابق بزرگ

در حالی که مطالب بزرگ گردش کار را ساده می کند ، آنها به قدرت و حافظه GPU بیشتری نیاز دارند و باعث می شود آنها در مقیاس پرهزینه باشند. رویکردهای مبتنی بر RAG ، با وجود نیاز به مراحل بازیابی متعدد ، اغلب باعث کاهش مصرف کلی می شود و منجر به کاهش هزینه های استنباط بدون قربانی کردن دقت می شود.

برای اکثر شرکت ها ، بهترین روش به مورد استفاده بستگی دارد:

آیا به تجزیه و تحلیل عمیق اسناد نیاز دارید؟ مدل های زمینه بزرگ ممکن است بهتر عمل کنند.
برای پرس و جوهای پویا آیا به هوش مصنوعی مقیاس پذیر و مقرون به صرفه نیاز دارید؟ Rag احتمالاً انتخاب هوشمندانه تر است.

یک پنجره زمینه بزرگ وقتی ارزشمند است:

متن کامل باید به یکباره مورد تجزیه و تحلیل قرار گیرد (مثال: بررسی قرارداد ، ممیزی کد).
به حداقل رساندن خطاهای بازیابی بسیار مهم است (مثال: انطباق نظارتی).
تأخیر نسبت به دقت کمتر است (مثال: تحقیقات استراتژیک).

در مورد تحقیقات Google ، مدل های پیش بینی سهام با استفاده از ویندوز 128k-token با تجزیه و تحلیل 10 سال از رونوشت های درآمد 29 ٪ از RAG بهتر است. از طرف دیگر ، آزمایش داخلی Github Copilot نشان داد که انجام کار 2.3 برابر سریعتر در مقابل RAG برای مهاجرت های Monorepo.

شکستن بازده های کاهش یافته

محدودیت مدلهای زمینه بزرگ: تأخیر ، هزینه و قابلیت استفاده

در حالی که مدل های زمینه بزرگ قابلیت های چشمگیر را ارائه می دهند ، محدودیت هایی در مورد چقدر زمینه اضافی مفید است. با گسترش ویندوزهای زمینه ، سه عامل اصلی بازی می شوند:

تأخیر: هرچه یک مدل یک مدل را نشان می دهد ، استنباط کندتر است. ویندوز زمینه بزرگتر می تواند منجر به تاخیرهای قابل توجهی شود ، به خصوص در صورت نیاز به پاسخ های زمان واقعی.
هزینه ها: با هر نشانه اضافی پردازش شده ، هزینه های محاسباتی افزایش می یابد. مقیاس گذاری زیرساخت ها برای رسیدگی به این مدل های بزرگتر می تواند به ویژه برای شرکت هایی که دارای بار کار با حجم بالا هستند ، گران شوند.
قابلیت استفاده: با افزایش زمینه ، توانایی مدل برای “تمرکز” مؤثر بر روی اطلاعات مهم کاهش می یابد. این می تواند به پردازش ناکارآمد منجر شود که در آن داده های کمتر مرتبط بر عملکرد مدل تأثیر بگذارد و در نتیجه باعث کاهش بازده برای دقت و کارآیی شود.

تکنیک توجه به Infini Google به دنبال جبران این معاملات با ذخیره بازنمایی های فشرده شده از زمینه خودسرانه با حافظه محدود است. با این حال ، فشرده سازی منجر به از بین رفتن اطلاعات می شود و مدل ها برای تعادل اطلاعات فوری و تاریخی تلاش می کنند. این منجر به تخریب عملکرد و افزایش هزینه در مقایسه با پارچه سنتی می شود.

مسابقه اسلحه پنجره زمینه نیاز به جهت دارد

در حالی که مدل های 4M-Token چشمگیر هستند ، شرکت ها باید از آنها به عنوان ابزارهای تخصصی به جای راه حل های جهانی استفاده کنند. آینده در سیستم های ترکیبی نهفته است که به طور سازگار بین رگ و سوابق بزرگ انتخاب می کنند.

شرکت ها باید بر اساس پیچیدگی استدلال ، هزینه و تأخیر بین مدل های زمینه بزرگ و RAG را انتخاب کنند. ویندوزهای زمینه بزرگ برای کارهایی که نیاز به درک عمیق دارند ایده آل است ، در حالی که RAG برای کارهای ساده تر و واقعی مقرون به صرفه تر و کارآمدتر است. شرکت ها باید محدودیت های روشنی را مانند 0.50 دلار برای هر کار تعیین کنند ، زیرا مدل های بزرگ می توانند گران شوند. علاوه بر این ، اعلان های بزرگ برای کارهای آفلاین بهتر مناسب هستند ، در حالی که سیستم های RAG در برنامه های زمان واقعی که نیاز به پاسخ سریع دارند ، برتری دارند.

نوآوری های نوظهور مانند Graphrag می توانند با ادغام نمودارهای دانش با روشهای سنتی بازیابی وکتور که بهتر روابط پیچیده را ضبط می کنند ، باعث بهبود استدلال ظریف و دقت در 35 ٪ در مقایسه با رویکردهای بردار می شوند. پیاده سازی های اخیر شرکت هایی مانند Lettria بهبود چشمگیر در دقت از 50 ٪ با RAG سنتی به بیش از 80 ٪ با استفاده از گرافراگ در سیستم های بازیابی ترکیبی نشان داده اند.

همانطور که یوری کوراتوف هشدار می دهد: “گسترش زمینه بدون بهبود استدلال مانند ساختن بزرگراه های گسترده تر برای اتومبیل هایی است که نمی توانند هدایت شوند.“آینده هوش مصنوعی در مدلهایی نهفته است که روابط را در هر اندازه زمینه درک می کنند.

Rahul Raja یک مهندس نرم افزار کارکنان LinkedIn است.

Advitya Gemawat یک مهندس یادگیری ماشین (ML) در مایکروسافت است.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد