DeepCoder عملکرد برنامه نویسی برتر را در مدل باز 14B کارآمد ارائه می دهد

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

محققان AI AI و Agentica DeepCoder-14B را منتشر کرده اند ، یک مدل برنامه نویسی جدید که عملکرد چشمگیر قابل مقایسه با مدلهای اختصاصی پیشرو مانند O3-Mini Openai را ارائه می دهد.

این مدل که در بالای Deepseek-R1 ساخته شده است ، انعطاف پذیری بیشتری را برای ادغام تولید کد با کارایی بالا و قابلیت های استدلال در برنامه های دنیای واقعی فراهم می کند. نکته مهم این است که تیم ها مدل ، داده های آموزشی ، کد ، سیاهههای مربوط و بهینه سازی سیستم را کاملاً باز کرده اند که می تواند به محققان کمک کند تا کار خود را بهبود بخشند و پیشرفت را تسریع کنند.

قابلیت های برنامه نویسی رقابتی در یک بسته کوچکتر

آزمایش های تیم تحقیقاتی نشان می دهد که DeepCoder-14b به شدت در چندین معیار برنامه نویسی چالش برانگیز ، از جمله LiveCodebench (LCB) ، CodeForces و Humaneval+عمل می کند.

محققان در یک پست وبلاگ می نویسند که این مدل را توصیف می کند ، “مدل ما عملکرد قوی را در تمام معیارهای برنامه نویسی نشان می دهد … قابل مقایسه با عملکرد O3-Mini (کم) و O1.”

جالب اینجاست که با وجود اینکه در درجه اول در مورد کارهای کدگذاری آموزش دیده است ، این مدل استدلال ریاضی را بهبود می بخشد ، 73.8 ٪ در معیار AIME 2024 ، پیشرفت 4.1 ٪ نسبت به مدل پایه خود (Deepseek-R1-Distill-Qwen-14b). این نشان می دهد که مهارت های استدلال ایجاد شده از طریق RL بر روی کد می تواند به طور مؤثر در سایر حوزه ها تعمیم یابد.

اعتبار: با هم AI

جالب ترین جنبه دستیابی به این سطح از عملکرد با تنها 14 میلیارد پارامتر است. این امر باعث می شود DeepCoder به طور قابل توجهی کوچکتر و بالقوه کارآمدتر از بسیاری از مدل های مرزی باشد.

نوآوری ها عملکرد DeepCoder را هدایت می کنند

محققان ضمن تهیه مدل ، برخی از چالش های اصلی در مدلهای کد نویسی آموزش را با استفاده از یادگیری تقویت کننده (RL) حل کردند.

اولین چالش ، تهیه اطلاعات آموزش بود. یادگیری تقویت نیاز به سیگنال های پاداش قابل اعتماد دارد که نشان می دهد خروجی مدل صحیح است. همانطور که محققان خاطرنشان می کنند ، “بر خلاف ریاضی-در جایی که داده های قابل توجهی با کیفیت بالا و قابل اثبات به راحتی در اینترنت در دسترس هستند-دامنه برنامه نویسی از کمبود نسبی چنین داده هایی رنج می برد.”

برای رفع این مشکل ، تیم DeepCoder یک خط لوله سخت را اجرا کرد که نمونه هایی از مجموعه داده های مختلف را جمع می کند و آنها را برای اعتبار ، پیچیدگی و تکثیر فیلتر می کند. این فرایند 24000 مشکل با کیفیت بالا به همراه داشت و پایه و اساس محکمی برای آموزش مؤثر RL فراهم می کند.

این تیم همچنین یک تابع پاداش ساده را طراحی کرده است که تنها در صورت عبور از کد تولید شده ، تمام تست های واحد نمونه برداری شده را برای مشکل در یک محدودیت زمانی خاص فراهم می کند. همراه با نمونه های آموزش با کیفیت بالا ، این سیستم پاداش متمرکز بر نتیجه مانع از یادگیری ترفندهای مانند چاپ پاسخ های به یاد ماندنی برای تست های عمومی یا بهینه سازی موارد لبه ساده بدون حل مشکل اصلی می شود.

الگوریتم آموزش اصلی مدل مبتنی بر بهینه سازی سیاست نسبی گروه (GRPO) ، یک الگوریتم یادگیری تقویت است که در DeepSeek-R1 بسیار موفق بود. با این حال ، این تیم چندین تغییر در الگوریتم ایجاد کرده است تا آن را پایدارتر کند و به مدل اجازه می دهد تا با تمدید آموزش برای مدت زمان طولانی تر ، به پیشرفت خود ادامه دهد.

سرانجام ، تیم به طور تکراری پنجره متن مدل را گسترش داد ، ابتدا آن را در توالی های استدلال کوتاه تر آموزش داد و به تدریج طول را افزایش داد. آنها همچنین یک روش فیلتر برای جلوگیری از مجازات مدل هنگام ایجاد زنجیره های استدلال که بیش از حد زمینه در هنگام حل یک فوریت سخت بود ، ایجاد کردند.

گسترش زمینه تکراری — *DeepCoder در مورد مشکلات زمینه 32K آموزش داده شد اما همچنین توانست اعتبار 64K را حل کند: با هم AI*

محققان ایده اصلی را توضیح می دهند: “برای حفظ استدلال طولانی مدت در حالی که می توان آموزش کارآمد را فراهم کرد ، ما فیلتر همواره را در خود جای دادیم … این تکنیک توالی های کوتاه شده را در طول آموزش از بین می برد تا مدل ها برای تولید خروجی های متفکرانه اما طولانی که بیش از حد زمینه فعلی هستند ، مجازات نشوند.”

این آموزش به تدریج از یک پنجره 16K به یک پنجره زمینه 32K اندازه گیری شد و مدل حاصل نیز می تواند مشکلاتی را که به نشانه های 64K نیاز دارد ، حل کند.

بهینه سازی آموزش RL با متن طولانی

آموزش مدلهای بزرگ با RL ، به ویژه در مورد کارهایی که به توالی های طولانی تولید شده مانند برنامه نویسی یا استدلال پیچیده نیاز دارند ، از نظر محاسباتی فشرده و کند است. یک تنگنا اصلی مرحله “نمونه برداری” است که در آن مدل به طور بالقوه هزاران نشانه در هر نمونه در دسته ایجاد می کند. تغییرات در طول پاسخ به این معنی است که برخی از پاسخ ها خیلی دیرتر از سایرین به پایان می رسند و GPU ها را بیکار می کنند و کل حلقه تمرینی را کاهش می دهند.

برای تسریع در این امر ، تیم Verl-Pipeline ، پسوند بهینه شده از کتابخانه منبع باز Verl برای یادگیری تقویت از بازخورد انسانی (RLHF) توسعه داد. نوآوری کلیدی ، که آنها را “لوله کشی یک طرفه” می نامند ، نمونه برداری پاسخ و به روزرسانی های مدل را برای کاهش تنگناها و زمان بیکار شدن شتاب دهنده تنظیم می کند.

آزمایشات آنها نشان داد که لوله کشی یک طرفه در مقایسه با پیاده سازی های پایه ، سرعت 2x را برای کدگذاری وظایف RL ارائه می دهد. این بهینه سازی برای آموزش DeepCoder در یک بازه زمانی معقول (2.5 هفته در 32 H100) بسیار مهم بود و اکنون به عنوان بخشی از Verl-Pipeline برای استفاده و ساخت جامعه از منبع باز است.

تأثیر شرکت

محققان تمام آثار باستانی را برای آموزش و اجرای DeepCoder-14b در GitHub و در آغوش گرفتن چهره تحت مجوز مجاز ساخته اند.

محققان می نویسند: “با به اشتراک گذاشتن کامل مجموعه داده ها ، کد و دستور العمل آموزش ، ما به جامعه این امکان را می دهیم که کار خود را بازتولید کرده و آموزش RL را برای همه در دسترس قرار دهد.”

DeepCoder-14B با قدرت نشان می دهد یک روند گسترده تر و شتاب دهنده در چشم انداز AI: ظهور مدلهای بسیار توانمند و در عین حال کارآمد و آشکارا در دسترس است.

برای دنیای شرکت ، این تغییر نشان دهنده گزینه های بیشتر و دسترسی بیشتر به مدل های پیشرفته است. عملکرد برش دیگر فقط دامنه Hyperscalers یا کسانی نیست که مایل به پرداخت هزینه های حق بیمه API هستند. مدلهایی مانند DeepCoder می توانند سازمانهایی را در هر اندازه توانمند سازند تا از تولید و استدلال پیشرفته کد استفاده کنند ، راه حل هایی را برای نیازهای خاص خود سفارشی کنند و آنها را به طور ایمن در محیط های خود مستقر کنند.

این روند می تواند مانع ورود به اتخاذ AI را کاهش دهد و اکوسیستم رقابتی تر و خلاقانه تری را تقویت کند ، جایی که پیشرفت از طریق همکاری منبع باز هدایت می شود.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد