Exprts (COE): یک چارچوب LLM با هزینه پایین که باعث افزایش کارایی و دقت می شود
Chain-of-experts versus mixture-of-experts (source: Notion)

Exprts (COE): یک چارچوب LLM با هزینه پایین که باعث افزایش کارایی و دقت می شود

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


شرکت ها به طور فزاینده ای برای ارائه خدمات پیشرفته به مدل های بزرگ زبان (LLM) اعتماد می کنند ، اما تلاش می کنند تا هزینه های محاسباتی مدل های در حال اجرا را انجام دهند. یک چارچوب جدید ، زنجیره ای از Exprts (COE) ، قصد دارد ضمن افزایش دقت خود در انجام وظایف استدلال ، LLM ها را با منابع کارآمدتر کند.

چارچوب COE محدودیت های رویکردهای قبلی را با فعال کردن “متخصصان” – عناصر جدا شده یک مدل ، که هر یک در کارهای خاص تخصص دارند – به طور متوالی به جای موازی ، می پردازد. این ساختار به متخصصان این امکان را می دهد تا نتایج میانی را برقرار کنند و به تدریج روی کار یکدیگر بسازند.

معماری مانند COE می تواند در برنامه های استنباط بسیار مفید باشد ، جایی که سود در کارآیی می تواند منجر به صرفه جویی در هزینه های عظیم و تجربه بهتر کاربر شود.

LLMS متراکم و مخلوط کردن

LLM های کلاسیک ، که گاهی اوقات به عنوان مدل های متراکم گفته می شود ، هر پارامتر را همزمان در هنگام استنتاج فعال می کنند و منجر به افزایش تقاضای محاسباتی می شوند. مخلوط کنفرانس (MOE) ، معماری که در مدلهایی مانند Deepseek-V3 و (فرضیه) GPT-4O استفاده می شود ، با تقسیم مدل به مجموعه ای از متخصصان ، این چالش را برطرف می کند.

در طول استنتاج ، مدل های MOE از روتر استفاده می کنند که زیر مجموعه ای از متخصصان را برای هر ورودی انتخاب می کند. MOE به طور قابل توجهی سربار محاسباتی LLMS در حال اجرا را در مقایسه با مدل های متراکم کاهش می دهد. به عنوان مثال ، Deepseek-V3 یک مدل 671 میلیارد پارامتر با 257 متخصص است که نه مورد از آنها برای هر نشانه ورودی داده شده استفاده می شود ، در کل 37 میلیارد پارامتر فعال در طول استنتاج.

اما MOE محدودیت هایی دارد. ابتدا دو اشکال اصلی این است که هر یک از متخصصان مستقل از دیگران فعالیت می کنند و عملکرد مدل را بر روی کارهایی که نیاز به آگاهی و هماهنگی متنی در بین متخصصان دارند ، کاهش می دهد. و دوم ، معماری MOE باعث کمبود بالایی می شود و در نتیجه مدلی با نیازهای حافظه بالا ایجاد می شود ، حتی اگر از زیر مجموعه کوچکی در هر زمان معین استفاده شود.

دارای مهارت های زنجیره ای

چارچوب زنجیره ای از Exprts محدودیت های MOE را با فعال کردن متخصصان به صورت متوالی به جای موازی ، به محدودیت های MOE می پردازد. این ساختار به متخصصان این امکان را می دهد تا نتایج میانی را برقرار کنند و به تدریج روی کار یکدیگر بسازند.

COE از یک فرآیند تکراری استفاده می کند. ورودی ابتدا به مجموعه ای از متخصصان منتقل می شود ، که آن را پردازش می کنند و پاسخ آنها را به مجموعه دیگری از متخصصان منتقل می کنند. گروه دوم متخصصان نتایج میانی را پردازش می کنند و می توانند آنها را به مجموعه بعدی متخصصان منتقل کنند. این رویکرد متوالی ورودی های آگاه از متن را فراهم می کند ، به طور قابل توجهی توانایی مدل در انجام کارهای استدلال پیچیده را افزایش می دهد.

کارآزمایی های زنجیره ای در مقابل مخلوط کنفرانس (منبع: مفهوم)

به عنوان مثال ، در استدلال ریاضی یا استنباط منطقی ، COE به هر متخصص اجازه می دهد تا بینش های قبلی را بسازد ، دقت و عملکرد وظیفه را بهبود بخشد. این روش همچنین استفاده از منابع را با به حداقل رساندن محاسبات اضافی که در استقرارهای کارشناس فقط موازی مشترک است ، بهینه می کند و به مطالبات شرکت برای راه حل های AI با هزینه و با عملکرد بالا می پردازد.

مزایای اصلی COE

رویکرد زنجیره ای از کارآزمایی ها ، با استفاده از فعال سازی متوالی و همکاری متخصص ، منجر به چندین مزیت کلیدی می شود ، همانطور که در یک تجزیه و تحلیل اخیر از گروهی از محققان که چارچوب COE را آزمایش می کنند شرح داده شده است.

در COE ، انتخاب متخصص به روشی تکراری انجام می شود. در هر تکرار ، متخصصان با خروجی مرحله قبلی تعیین می شوند. این کار متخصصان مختلف را قادر می سازد تا ارتباط برقرار کنند و وابستگی های متقابل ایجاد کنند تا یک مکانیسم مسیریابی پویاتر ایجاد کنند.

محققان می نویسند: “به این ترتیب ، COE می تواند ضمن حفظ بهره وری محاسباتی ، به ویژه در سناریوهای پیچیده (به عنوان مثال ، وظیفه ریاضی در آزمایشات) ، عملکرد مدل را به طور قابل توجهی بهبود بخشد.”

مدل های COE از LLMS و MOE متراکم با منابع برابر بهتر است (منبع: مفهوم)

آزمایشات محققان نشان می دهد که با بودجه محاسبات و حافظه برابر ، COE از LLMS و MOE های متراکم بالاتر است. به عنوان مثال ، در معیارهای ریاضی ، یک COE با 64 متخصص ، چهار متخصص مسیریابی و دو تکرار استنباط (COE-2 (4/64)) از یک MOE با 64 متخصص و هشت متخصص مسیریابی (MOE (8/64)) بهتر است.

محققان همچنین دریافتند که COE نیازهای حافظه را کاهش می دهد. به عنوان مثال ، یک COE با دو از 48 متخصص مسیریابی و دو تکرار (COE-2 (4/48)) در حالی که از کل متخصصان کمتری استفاده می کند ، عملکرد مشابه MOE (8/64) را به دست می آورد و نیازهای حافظه را 17.6 ٪ کاهش می دهد.

COE همچنین امکان معماری های مدل کارآمدتر را فراهم می کند. به عنوان مثال ، یک COE-2 (8/64) با چهار لایه شبکه عصبی با عملکرد یک MOE (8/64) با هشت لایه مطابقت دارد ، اما با استفاده از 42 ٪ حافظه کمتر.

محققان می نویسند: “شاید از همه مهمتر ، به نظر می رسد كه كو آنچه را كه ما آن را شتاب” ناهار رایگان “می نامیم ، فراهم می كند. “با بازسازی چگونگی جریان اطلاعات از طریق مدل ، ما با سربار محاسباتی مشابه در مقایسه با روش های قبلی MOE به نتایج بهتری می رسیم.”

مورد در نکته: یک COE-2 (4/64) 823 ترکیب متخصص دیگر را در مقایسه با MOE (8/64) فراهم می کند ، و این مدل را قادر می سازد تا بدون افزایش اندازه مدل یا حافظه و نیازهای محاسبه آن ، کارهای پیچیده تری را بیاموزد.

هزینه های پایین تر عملیاتی COE و بهبود عملکرد در کارهای پیچیده می تواند پیشرفته پیشرفته را برای شرکت ها در دسترس قرار دهد و به آنها کمک می کند تا بدون سرمایه گذاری های اساسی در زیرساخت ها ، رقابت کنند.

محققان می نویسند: “این تحقیق مسیرهای جدیدی را برای مقیاس های کارآمد در زمینه زبان باز می کند ، و به طور بالقوه قابلیت های پیشرفته هوش مصنوعی را در دسترس تر و پایدار تر می کند.”