برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
یک مطالعه آکادمیک جدید فرضیه اصلی را در توسعه مدلهای بزرگ زبان (LLMS) به چالش می کشد ، و هشدار می دهد که داده های قبل از آموزش بیشتر ممکن است همیشه منجر به مدل های بهتر نشود.
محققان برخی از مؤسسات برجسته علوم رایانه در غرب و سراسر جهان-از جمله دانشگاه کارنگی ملون ، دانشگاه استنفورد ، دانشگاه هاروارد و دانشگاه پرینستون-مفهوم “سبقت فاجعه بار” را معرفی کردند.
مطالعه ، “مدل های زبانی بیش از حد برای تنظیم دقیق سخت تر است، “ در ARXIV موجود است و توسط Jacob Mitchell Springer به رهبری می رود. نویسندگان آن هستند ساچین گویال ، کایو ون ، تانیش کومار ، شیانگ یو ، سادیکا مالادی ، گراهام نوبیگ و آدیتی راغوناتان.
قانون کاهش بازده
این تحقیق بر یک روند غافلگیرکننده مشاهده شده در توسعه LLM مدرن متمرکز شده است: در حالی که مدل ها در استخرهای در حال گسترش داده ها از قبل آموزش داده می شوند-از وب استفاده می شوند یا از وب استفاده می شوند ، به عنوان یک سری از نشانه ها یا نمایش های عددی مفاهیم و ایده ها نشان داده می شوند-ایجاد تعداد نشانه ها در طول پیش از رهایی منجر به کاهش خاص می شود که در هنگام انجام کارآزمایی ، آگاهی از نظر خاص کاهش می یابد.
این تیم مجموعه ای از ارزیابی های تجربی و تجزیه و تحلیل های نظری را برای بررسی تأثیر پیش از ترساندن گسترده بر سازگاری مدل انجام داد.
یکی از مراکز یافته های کلیدی در مدل OLMO-1B منبع باز AI2.
محققان دو نسخه از این مدل را با یکدیگر مقایسه کردند: یکی از قبل در 2.3 تریلیون توکن و دیگری در 3 تریلیون توکن.
علیرغم اینکه دومی روی داده های 30 ٪ بیشتر آموزش دیده است ، مدل دوم پس از تنظیم دستورالعمل بدتر عمل کرد. به طور خاص ، مدل 3T-Token بیش از 2 ٪ عملکرد بدتر را در چندین معیار مدل زبان استاندارد نسبت به همتای 2.3T-Token خود نشان داد. در برخی از ارزیابی ها ، تخریب در عملکرد به 3 ٪ رسیده است.
محققان استدلال می کنند که این کاهش یک ناهنجاری نیست بلکه یک پدیده مداوم است که آنها “سبقت فاجعه بار” می نامند.
درک حساسیت و فراموشی
این مقاله این تخریب را به افزایش سیستماتیک در آنچه که آنها “حساسیت مترقی” می نامند ، نسبت می دهد. از آنجا که مدل ها تحت رهبری طولانی مدت قرار می گیرند ، پارامترهای آنها نسبت به تغییرات حساس تر می شوند.
این افزایش شکنندگی باعث می شود که آنها در طی اصلاحات پس از آموزش مانند تنظیم دستورالعمل ، تنظیم دقیق برای کارهای چند مدلی یا حتی آشفتگی های ساده وزن ، در برابر تخریب آسیب پذیرتر شوند.
محققان شواهدی را ارائه می دهند که نشان می دهد ، فراتر از یک نقطه خاص در پیش از آموزش ، هرگونه اصلاح-چه ساختار یافته مانند تنظیم دقیق یا بدون ساختار مانند اضافه کردن سر و صدای گاوسی-باعث از بین رفتن بیشتر توانایی های قبلاً آموخته شده می شود.
این حساسیت منجر به “فراموشی” می شود ، جایی که با معرفی داده های جدید آموزش ، نقاط قوت اصلی مدل بدتر می شود.
این مطالعه “نقطه تورم” در پیش از آموزش را مشخص می کند ، پس از آن آموزش های اضافی منجر به کاهش و حتی بازده منفی در مورد نتایج تنظیم دقیق می شود. برای مدل OLMO-1B ، این آستانه در حدود 2.5 تریلیون نشانه ظاهر شد.
شواهد زیادی
تجزیه و تحلیل این تیم شامل تنظیمات آزمایشی در دنیای واقعی و کنترل شده است. آنها این پدیده را در کارهای مختلف آزمایش کردند ، از جمله تنظیم دستورالعمل با استفاده از مجموعه داده هایی مانند Anthropic-HH و Tulu و تنظیم دقیق چند حالته با استفاده از چارچوب LLAVA.
نتایج به طور مداوم نشان می دهد که مدلهایی که از قبل از بودجه های خاصی که پس از تنظیم دقیق ، تحت تأثیر قرار گرفته اند ، از پیش گرفته شده اند.
علاوه بر این ، محققان با استفاده از شبکه های خطی یک مدل نظری ساختند تا بهتر درک کنند که چرا سبقت باعث افزایش حساسیت می شود.
تجزیه و تحلیل آنها تأیید کرد که حساسیت تدریجی و سبقت فاجعه بار از نظر ریاضی اجتناب ناپذیر است وقتی پیش از رهبری به طور نامحدود و بدون محدودیت های مناسب ادامه می یابد.
غذای نهایی نهایی؟ ارائه دهندگان و مربیان مدل باید معاملات خود را انجام دهند
این یافته ها فرض گسترده ای را که داده های قبل از آموزش بیشتر همیشه بهتر است به چالش می کشد. در عوض ، این مقاله نشان می دهد که یک تجارت ظریف است: در حالی که پیش از ترجمه طولانی تر ، قابلیت های مدل پایه را بهبود می بخشد ، همچنین این خطر را افزایش می دهد که تنظیم دقیق آن قابلیت ها را تخریب می کند.
در عمل ، تلاش برای کاهش این اثر-مانند تنظیم نرخ یادگیری تنظیم دقیق یا افزودن منظم-ممکن است شروع به کار بیش از حد فاجعه بار باشد اما بدون قربانی کردن عملکرد پایین دست نمی تواند آن را به طور کامل از بین ببرد.
بنابراین ، برای شرکت هایی که به دنبال استفاده از LLMS برای بهبود گردش کار و نتایج تجاری هستند ، اگر یک ایده برای انجام این کار تنظیم یک مدل منبع باز باشد ، درس این تحقیق نشان می دهد که مدل های پارامتر پایین تر که روی مواد کمتری آموزش داده می شوند ، احتمالاً به یک مدل تولید قابل اطمینان تر می رسند.
نویسندگان تصدیق می کنند که برای درک عوامل مؤثر بر زمان و چگونگی رخ دادن فاجعه بار ، تحقیقات بیشتری لازم است. سؤالات باز شامل اینکه آیا بهینه ساز قبل از آموزش ، هدف آموزش یا توزیع داده ها می تواند بر شدت پدیده تأثیر بگذارد.
پیامدهای مربوط به توسعه مدل LLM و AI آینده
این مطالعه به طور قابل توجهی بر نحوه طراحی و آموزش مدلهای بزرگ زبان بر نحوه طراحی و آموزش مدلهای بزرگ زبان تأثیر می گذارد. از آنجا که این زمینه به دنبال مدل های بزرگتر و توانمند تر است ، این تحقیق اهمیت تعادل مدت زمان قبل از آموزش را با سازگاری پس از آموزش برجسته می کند.
علاوه بر این ، این یافته ها ممکن است بر نحوه تفکر توسعه دهندگان مدل در مورد تخصیص منابع تأثیر بگذارد. به جای تمرکز منحصراً بر افزایش بودجه های قبل از آموزش ، توسعه دهندگان ممکن است نیاز به ارزیابی مجدد استراتژی ها برای بهینه سازی عملکرد پایین دست بدون ایجاد اثرات منفی سبقت فاجعه بار داشته باشند.
ارسال پاسخ