مایکروسافت PHI-4-Reseding-Plus را راه اندازی کرد ، یک مدل استدلال کوچک ، قدرتمند و باز!
مایکروسافت PHI-4-Reseding-Plus را راه اندازی کرد ، یک مدل استدلال کوچک ، قدرتمند و باز!

مایکروسافت PHI-4-Reseding-Plus را راه اندازی کرد ، یک مدل استدلال کوچک ، قدرتمند و باز!

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


Microsoft Research از انتشار PHI-4-Resing-Plus ، یک مدل زبان با وزن باز که برای کارهایی که نیاز به استدلال عمیق و ساختاری دارد ، اعلام کرده است.

با تکیه بر معماری PHI-4 که ​​قبلاً منتشر شده بود ، مدل جدید یکپارچه سازی تنظیم دقیق و یادگیری تقویت شده برای ارائه عملکرد بهتر در معیارهای ریاضیات ، علوم ، برنامه نویسی و مبتنی بر منطق است.

PHI-4-Reseding-Plus یک مدل ترانسفورماتور فقط رمزگشایی فقط پارامتر پارامتر است که بر کیفیت بر مقیاس تأکید دارد. فرایند آموزش آن شامل 16 میلیارد توکن-حدود 8.3 میلیارد نفر از آنها منحصر به فرد است که از مجموعه داده های مصنوعی و مبتنی بر وب استفاده شده است.

یک مرحله یادگیری تقویت کننده (RL) ، تنها با استفاده از حدود 6،400 مشکل ریاضی ، قابلیت های استدلال مدل را بیشتر تصفیه می کند.

این مدل تحت مجوز MIT مجاز منتشر شده است-امکان استفاده از آن برای برنامه های گسترده تجاری و بنگاه اقتصادی و تنظیم دقیق یا تقطیر ، بدون محدودیت-و با چارچوب های استنتاج گسترده ای از جمله بغل کردن ترانسفورماتورهای صورت ، VLLM ، LLAMA.CPP و OLLAMA سازگار است.

مایکروسافت توصیه های مفصلی را در مورد پارامترهای استنتاج و قالب بندی سریع سیستم برای کمک به توسعه دهندگان بیشترین بهره را از مدل ارائه می دهد.

از مدل های بزرگتر بهتر عمل می کند

توسعه این مدل نشان دهنده تأکید روزافزون مایکروسافت بر آموزش مدلهای کوچکتر است که قادر به رقابت با سیستم های بسیار بزرگتر در عملکرد هستند.

علیرغم اندازه نسبتاً متوسط ​​، PHI-4-Resing-Plus از مدلهای بزرگتر با وزن باز مانند Deepseek-R1-Distill-70B در تعدادی از معیارهای خواستار استفاده می کند.

به عنوان مثال ، در آزمون ریاضی AIME 2025 ، در عبور از 30 سؤال در اولین آزمایش (شاهکار معروف به “Pass@1”) نسبت به مدل تقطیر پارامتر 70B ، دقت متوسطی را ارائه می دهد و به عملکرد Deepseek-R1 خود نزدیک می شود که در پارامترهای 671B بسیار بزرگتر است.

تفکر ساختاری از طریق تنظیم دقیق

برای دستیابی به این هدف ، مایکروسافت از یک استراتژی آموزش داده محور استفاده کرد.

در مرحله تنظیم دقیق نظارت ، این مدل با استفاده از ترکیبی از آثار استدلال زنجیره ای مصنوعی و با کیفیت بالا فیلتر شد.

یک نوآوری کلیدی در رویکرد آموزش استفاده از خروجی های استدلال ساختاری با ویژه است وت نشانه ها

اینها مدل را راهنمایی می کنند تا مراحل استدلال میانی خود را از پاسخ نهایی جدا کنند و هم شفافیت و هم انسجام را در حل مسئله طولانی مدت ترویج می کنند.

یادگیری تقویت برای دقت و عمق

پس از تنظیم دقیق ، مایکروسافت از یادگیری تقویت مبتنی بر نتیجه-به طور خاص ، الگوریتم بهینه سازی سیاست نسبی گروه (GRPO)-برای بهبود دقت و کارآیی خروجی مدل استفاده کرد.

عملکرد پاداش RL برای تعادل در صحت با مختصر بودن ، تکرار مجازات و اجرای قوام قالب بندی ساخته شد. این منجر به پاسخ های طولانی تر اما متفکرتر ، به ویژه در مورد سؤالاتی که در ابتدا مدل فاقد اعتماد به نفس بود ، منجر شد.

برای محدودیت های تحقیق و مهندسی بهینه شده است

PHI-4-Reseding-Plus برای استفاده در برنامه هایی که از استدلال با کیفیت بالا تحت محدودیت حافظه یا تأخیر بهره مند می شوند ، در نظر گرفته شده است. این برنامه به طور پیش فرض از طول زمینه 32،000 توکن پشتیبانی می کند و عملکرد پایدار را در آزمایشات با ورودی های حداکثر 64،000 توکن نشان داده است.

این بهترین استفاده در یک تنظیمات شبیه به چت است و با یک سیستم سریع بهینه انجام می شود که صریحاً به آن دستور می دهد قبل از ارائه راه حل ، از طریق مشکلات مرحله به مرحله استدلال کند.

تست ایمنی گسترده و دستورالعمل های استفاده

مایکروسافت این مدل را به عنوان یک ابزار تحقیق و یک مؤلفه برای سیستم های AI تولیدی به جای یک راه حل قطره ای برای همه کارهای پایین دست قرار می دهد.

به توسعه دهندگان توصیه می شود قبل از استقرار مدل در محیط های پر یا تنظیم شده ، عملکرد ، ایمنی و انصاف را با دقت ارزیابی کنند.

PHI-4-Reseding-Plus دستخوش ارزیابی گسترده ایمنی شده است ، از جمله تیم قرمز توسط تیم AI Red مایکروسافت و معیار با ابزارهایی مانند Toxigen برای ارزیابی پاسخ های آن در دسته های محتوای حساس.

به گفته مایکروسافت ، این نسخه نشان می دهد که با استفاده از داده های با دقت و تکنیک های آموزش ، مدل های کوچک می توانند عملکرد استدلال قوی را ارائه دهند – و دسترسی دموکراتیک ، باز به بوت.

در اینجا یک نسخه اصلاح شده از بخش پیامدهای سازمانی با لحنی فنی و به سبک خبری ، هماهنگ با یک انتشار فناوری تجاری است:

پیامدهای تصمیم گیرندگان فنی شرکت

انتشار PHI-4-Desing-Plus مایکروسافت ممکن است فرصت های معنی داری را برای ذینفعان فنی شرکت در مدیریت توسعه مدل AI ، ارکستراسیون یا زیرساخت های داده ارائه دهد.

برای مهندسان هوش مصنوعی و مدیران چرخه عمر مدل ، اندازه پارامتر 14B مدل همراه با عملکرد معیار رقابتی یک گزینه مناسب برای استدلال با کارایی بالا و بدون نیاز به زیرساخت های مدل های قابل توجهی بزرگتر را معرفی می کند. سازگاری آن با چارچوب هایی مانند بغل کردن ترانسفورماتورهای صورت ، VLLM ، LLAMA.CPP و OLLAMA انعطاف پذیری استقرار را در پشته های مختلف شرکت از جمله محیط های کانتینر شده و بدون سرور فراهم می کند.

تیم های مسئول استقرار و مقیاس گذاری مدل های یادگیری ماشین ممکن است پشتیبانی مدل را برای زمینه های 32K-token-که در آزمایش به 64k قابل استفاده است ، پیدا کنند-به ویژه در موارد استفاده سنگین اسناد مانند تجزیه و تحلیل حقوقی ، QA فنی یا مدل سازی مالی مفید هستند. ساختار داخلی جداکننده استدلال زنجیره ای از پاسخ نهایی همچنین می تواند ادغام در رابط هایی را که در آن تفسیر یا حسابرسی بودن مورد نیاز است ، ساده کند.

برای تیم های ارکستراسیون هوش مصنوعی ، PHI4-Reseding-Plus معماری مدل را ارائه می دهد که می تواند با محدودیت منابع به راحتی در خطوط لوله قرار گیرد. این در سناریوهایی است که استدلال در زمان واقعی باید در محدوده تأخیر یا هزینه رخ دهد. توانایی نشان داده شده آن در تعمیم مشکلات خارج از دامنه ، از جمله کارهای سخت NP مانند 3SAT و TSP ، نشان می دهد که ابزار در برنامه ریزی الگوریتمی و مواردی که از تصمیم گیری پشتیبانی می کنند فراتر از مواردی که در طول آموزش به صراحت هدف قرار گرفته اند.

منجر به مهندسی داده ها همچنین ممکن است قالب استدلال مدل را در نظر بگیرد-طراحی شده برای منعکس کننده مراحل حل مسئله متوسط-به عنوان مکانیسمی برای ردیابی سازگاری منطقی در توالی های طولانی از داده های ساختاری. قالب خروجی ساختاری می تواند در لایه های اعتبار سنجی یا سیستم های ورود به سیستم برای پشتیبانی از توضیح در برنامه های غنی از داده ها ادغام شود.

از دیدگاه حاکمیتی و ایمنی ، PHI-4-Reseding-Plus شامل چندین لایه از تراز ایمنی پس از آموزش است و تحت آزمایش های مخالف تیم قرمز AI داخلی مایکروسافت قرار گرفته است. برای سازمانهایی که مشمول انطباق یا الزامات حسابرسی هستند ، این ممکن است سربار توسعه گردش کار تراز سفارشی را از ابتدا کاهش دهد.

به طور کلی ، PHI-4-repeding-plus نشان می دهد که چگونه شوق استدلال توسط امثال سری “O” مدل های Openai آغاز شد و Deepseek R1 همچنان به سرعت و حرکت به پایین دست به مدلهای کوچکتر ، در دسترس تر ، مقرون به صرفه و قابل تنظیم ادامه می یابد.

برای تصمیم گیرندگان فنی که وظیفه مدیریت عملکرد ، مقیاس پذیری ، هزینه و ریسک را دارند ، یک جایگزین ماژولار و قابل تفسیر را ارائه می دهد که می تواند بر اساس یک انعطاف پذیر ارزیابی و یکپارچه شود-خواه در نقاط پایانی استنباط جدا شده ، ابزار تعبیه شده یا سیستم های AI تولیدی کامل.