برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
محققان Light-R1-32B را معرفی کرده اند ، یک مدل جدید هوش مصنوعی منبع باز برای حل مشکلات ریاضی پیشرفته. اکنون در بغل کردن چهره تحت مجوز مجاز Apache 2.0 موجود است-رایگان برای شرکت ها و محققان برای گرفتن ، استقرار ، تنظیم دقیق یا اصلاح همانطور که می خواهند ، حتی برای اهداف تجاری.
پارامتر 32 میلیارد (تعداد تنظیمات مدل) مدل از عملکرد مدل های منبع باز به اندازه (و حتی بزرگتر) مانند Deepseek-r1-distill-dlama-70b و Deepseek-r1-distill-qwen-32b در معاینه ریاضی 3 ساعته آمریکایی (AIME) استفاده می کند.
توسعه یافته توسط Liang Wen ، Fenrui Xiao ، Xin HE ، Yunke Cai ، Qi An ، Zhenyu Duan ، Yimin DU ، Junchen Liu ، Lifu Tang ، Xiaowei LV ، Haosheng Zou ، Yongchao Deng ، Shousheng Jia و Xiangzhatatives Bimptions Surpasse Preditive Surpasses Openditive Opensitive Opensitives ، Thansitive Surpasshives ، Thansitives ،
به طرز شگفت آور ، محققان آموزش مدل را در کمتر از شش ساعت در 12 GPU NVIDIA H800 با هزینه کل 1000 دلار انجام دادند. این امر باعث می شود Light-R1-32B یکی از در دسترس ترین و عملی ترین روش ها برای توسعه مدلهای AI با عملکرد بالا با عملکرد بالا باشد. با این حال ، یادآوری این نکته حائز اهمیت است که این مدل بر روی نوع از منبع باز Alibaba QWEN 2.5-32B-Instruct آموزش داده شده است ، که خود فرض می شود هزینه های آموزش مقدماتی بسیار بالاتری داشته است.
در کنار این مدل ، این تیم مجموعه داده های آموزشی و اسکریپت ها و ابزارهای ارزیابی خود را منتشر کرده است و یک چارچوب شفاف و در دسترس را برای ساخت مدلهای هوش مصنوعی با محوریت ریاضی فراهم می کند.
ورود LIGHT-R1-32B از تلاشهای مشابه رقبا مانند مایکروسافت ORCA-MATH پیروی می کند.
یک پادشاه ریاضی جدید ظهور می کند
برای کمک به Light-R1-32B با استدلال ریاضی پیچیده ، محققان روی مدلی که مجهز به استدلال با زنجیره طولانی (COT) نبود ، آموزش دیدند. آنها از تنظیم دقیق نظارت بر برنامه درسی مبتنی بر برنامه درسی (SFT) و ترجیح مستقیم Otptimization (DPO) استفاده کردند تا قابلیت های حل مسئله آن را اصلاح کنند.
هنگامی که ارزیابی شد ، Light-R1-32B در AIME24 و 64.6 در AIME25 به 76.6 رسید و از Deepseek-R1-Distill-Qwen-32B پیشی گرفت ، که به ترتیب 72.6 و 54.9 به دست آورد.
این پیشرفت نشان می دهد که رویکرد آموزش مبتنی بر برنامه درسی به طور موثری استدلال ریاضی را تقویت می کند ، حتی در هنگام آموزش از مدلهایی که در ابتدا فاقد تختخواب طولانی هستند.
معیار منصفانه
برای اطمینان از معیار منصفانه ، محققان داده های آموزش را در برابر معیارهای استدلال مشترک ، از جمله AIME24/25 ، MATH-500 و GPQA Diamond ، از بین بردند و از نشت داده ها جلوگیری کردند.
آنها همچنین فیلتر پاسخ مبتنی بر دشواری را با استفاده از DeepScaler-1.5b-Preview اجرا کردند و در نهایت یک مجموعه داده 76،000 نمونه را برای اولین مرحله از تنظیم دقیق نظارت کردند. یک مجموعه داده دوم و چالش برانگیزتر از 3000 مثال باعث بهبود عملکرد بیشتر می شود.
پس از تمرین ، این تیم چندین نسخه آموزش دیده Light-R1-32B را با هم ادغام کردند و منجر به سود اضافی شدند. نکته قابل توجه ، این مدل با وجود داشتن ریاضی تخصصی ، توانایی های عمومی سازی قوی را در کارهای استدلال علمی (GPQA) حفظ می کند.
چگونه شرکت ها می توانند از آن بهره مند شوند
Light-R1-32B تحت مجوز Apache 2.0 منتشر می شود ، یک مجوز منبع باز مجاز که امکان استفاده رایگان ، اصلاح و استقرار تجاری را فراهم می کند بدون اینکه نیاز به کارهای مشتق داشته باشد. این امر باعث می شود گزینه ای جذاب برای شرکت ها ، توسعه دهندگان هوش مصنوعی و مهندسان نرم افزار به دنبال ادغام یا سفارشی سازی مدل برای برنامه های اختصاصی باشد.
این مجوز همچنین شامل یک کمک هزینه حق ثبت اختراع در سراسر جهان است که باعث کاهش خطرات قانونی برای مشاغل می شود و ضمن دلسرد کردن اختلافات ثبت اختراع. شرکت ها می توانند آزادانه Light-R1-32B را در محصولات تجاری مستقر کنند و ضمن بهره گیری از یک اکوسیستم هوش مصنوعی باز و شفاف ، کنترل کامل بر نوآوری های خود را حفظ کنند.
برای مدیران عامل ، CTO و رهبران IT ، Apache 2.0 بهره وری هزینه و استقلال فروشنده را تضمین می کند ، هزینه های صدور مجوز و وابستگی های محدود کننده به راه حل های اختصاصی هوش مصنوعی را از بین می برد. توسعه دهندگان و مهندسان هوش مصنوعی انعطاف پذیری را برای تنظیم دقیق ، ادغام و گسترش مدل بدون محدودیت به دست می آورند و آن را برای استدلال های تخصصی ریاضی ، تحقیق و برنامه های هوش مصنوعی سازمانی ایده آل می کنند.
با این حال ، از آنجا که مجوز هیچ گونه ضمانت یا پوشش مسئولیت را ارائه نمی دهد ، سازمان ها باید قبل از استقرار Light-R1-32B در محیط های بحرانی ، ارزیابی های امنیتی ، انطباق و عملکرد خود را انجام دهند.
شفافیت در آموزش کم هزینه و بهینه سازی برای حل مسئله ریاضی
محققان تأکید می کنند که Light-R1-32B روشی معتبر و مقرون به صرفه برای آموزش مدل های محکم COT طولانی در حوزه های تخصصی فراهم می کند.
آنها با به اشتراک گذاشتن روش شناسی ، داده های آموزش و کد ، هدف آنها کاهش موانع هزینه برای توسعه هوش مصنوعی با کارایی بالا است. با نگاهی به آینده ، آنها قصد دارند برای تقویت بیشتر قابلیت های استدلال مدل ، یادگیری تقویت کننده (RL) را کشف کنند.
ارسال پاسخ