برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
مایکروسافت کلاس جدیدی از مدلهای هوش مصنوعی بسیار کارآمد را معرفی کرده است که متن ، تصاویر و گفتار را به طور همزمان پردازش می کند در حالی که به قدرت محاسباتی قابل توجهی کمتر از سیستم های موجود نیاز دارد. مدل های جدید PHI-4 ، که امروز منتشر شد ، نشان دهنده دستیابی به موفقیت در توسعه مدل های زبان کوچک (SLM) است که قابلیت هایی را که قبلاً برای سیستم های AI بسیار بزرگتر محفوظ بودند ، ارائه می دهند.
براساس گزارش فنی مایکروسافت ، PHI-4-MULTIMODAL ، مدلی با 5.6 میلیارد پارامتر و PHI-4-MINY با 3.8 میلیارد پارامتر ، از رقبای با اندازه مشابه بهتر عمل می کند و حتی از عملکرد مدل ها نیز دو برابر اندازه آنها در برخی کارها مطابقت دارد.
ویزو چن ، معاون رئیس جمهور ، تولید AI در مایکروسافت گفت: “این مدل ها برای توانمندسازی توسعه دهندگان با قابلیت های پیشرفته هوش مصنوعی طراحی شده اند.” “Phi-4-Multimodal ، با توانایی خود در پردازش گفتار ، بینایی و متن به طور همزمان ، امکانات جدیدی را برای ایجاد برنامه های نوآورانه و آگاهانه باز می کند.”
دستاورد فنی در حالی صورت می گیرد که شرکت ها به طور فزاینده ای به دنبال مدل های هوش مصنوعی هستند که می توانند بر روی سخت افزار استاندارد یا “لبه” – مستقیماً در دستگاه ها و نه در مراکز داده ابری – اجرا شوند – برای کاهش هزینه ها و تأخیر ضمن حفظ حریم خصوصی داده ها.
چگونه مایکروسافت یک مدل هوش مصنوعی کوچک ساخت که همه این کارها را انجام می دهد
آنچه Phi-4-Multimodal را از هم جدا می کند ، تکنیک رمان “مخلوط LORAS” آن است که آن را قادر می سازد تا متن ، تصاویر و ورودی های گفتار را در یک مدل واحد کنترل کند.
در مقاله تحقیقاتی آمده است: “با استفاده از مخلوط LORAS ، PHI-4-Multimodal توانایی های چندمودی را ضمن به حداقل رساندن تداخل بین روشها گسترش می دهد.” “این رویکرد یکپارچه سازی یکپارچه را امکان پذیر می کند و عملکرد مداوم را در بین وظایف شامل متن ، تصاویر و گفتار/صدا تضمین می کند.”
این نوآوری به مدل اجازه می دهد تا ضمن افزودن بینایی و تشخیص گفتار ، بدون تخریب عملکرد ، قابلیت های زبان قوی خود را حفظ کند.
این مدل مقام برتر را در صفحه Hugging Face OpenASR با میزان خطای کلمه 6.14 ٪ ، از سیستم های تخصصی تشخیص گفتار مانند Whisperv3 استفاده کرده است. همچنین عملکرد رقابتی در کارهای بینایی مانند استدلال ریاضی و علمی با تصاویر را نشان می دهد.
AI جمع و جور ، تأثیر گسترده: PHI-4-Mini استانداردهای عملکرد جدیدی را تعیین می کند
با وجود اندازه جمع و جور ، Phi-4-Mini قابلیت های استثنایی در کارهای مبتنی بر متن را نشان می دهد. مایکروسافت از مدل “از مدل های اندازه مشابه بهتر عمل می کند و با مدل های دو برابر بزرگتر” در معیارهای مختلف درک زبان است.
به خصوص قابل توجه عملکرد مدل در کارهای ریاضی و برنامه نویسی است. طبق مقاله تحقیق ، “Phi-4-Mini از 32 لایه ترانسفورماتور با اندازه حالت پنهان 3،072” تشکیل شده است و توجه گروهی را برای بهینه سازی استفاده از حافظه برای تولید طولانی مدت شامل می کند.
در معیار ریاضی GSM-8K ، PHI-4-MINY نمره 88.6 ٪ را به دست آورد ، از بیشتر مدل های پارامتر 8 میلیارد فراتر رفت ، در حالی که در معیار ریاضی به 64 ٪ رسید ، که قابل ملاحظه ای بالاتر از رقبای مشابه است.
وی گفت: “برای معیار ریاضی ، این مدل از مدل های اندازه مشابه با حاشیه های بزرگ بهتر عمل می کند ، گاهی اوقات بیش از 20 امتیاز. این حتی از دو برابر نمرات مدل های بزرگتر بهتر است. “
استقرارهای تحول آمیز: کارآیی دنیای واقعی PHI-4 در عمل
ظرفیت ، یک موتور پاسخ هوش مصنوعی که به سازمان ها کمک می کند تا مجموعه داده های متنوعی را متحد کنند ، در حال حاضر از خانواده PHI برای افزایش کارآیی و صحت پلتفرم خود استفاده کرده است.
استیو فردریکسون ، رئیس محصول با ظرفیت ، در بیانیه ای گفت: “از آزمایشات اولیه ما ، آنچه واقعاً ما را در مورد PHI تحت تأثیر قرار داد ، دقت قابل توجه و سهولت استقرار ، حتی قبل از سفارشی سازی بود. از آن زمان ، ما توانسته ایم هم دقت و هم قابلیت اطمینان را افزایش دهیم ، همه در حالی که هزینه-اثربخشی و مقیاس پذیری را که از ابتدا ارزش داشتیم حفظ می کنیم. “
ظرفیت گزارش صرفه جویی در هزینه 4.2 برابر در مقایسه با گردش کار رقیب ضمن دستیابی به نتایج یکسان یا بهتر برای کارهای پیش پردازش.
هوش مصنوعی بدون محدودیت: مدل های PHI-4 مایکروسافت اطلاعات پیشرفته را در هر کجا به ارمغان می آورند
سالهاست که توسعه هوش مصنوعی توسط یک فلسفه مفرد هدایت می شود: بزرگتر بهتر است. پارامترهای بیشتر ، مدل های بزرگتر ، تقاضای محاسباتی بیشتر. اما مدل های PHI-4 مایکروسافت این فرض را به چالش می کشد ، ثابت می کند که قدرت فقط مربوط به مقیاس نیست-این مربوط به کارآیی است.
PHI-4-MULTIMODAL و PHI-4-MINY نه برای مراکز داده غول های فنی بلکه برای دنیای واقعی طراحی شده اند-جایی که قدرت محاسباتی محدود است ، نگرانی های مربوط به حریم خصوصی مهم است و هوش مصنوعی باید بدون اتصال مداوم با ابر کار کند. این مدل ها کوچک هستند ، اما وزن آنها را تحمل می کنند. Phi-4-Multimodal بدون قربانی کردن دقت ، گفتار ، بینایی و پردازش متن را در یک سیستم واحد ادغام می کند ، در حالی که Phi-4-Mini عملکرد ریاضی ، برنامه نویسی و استدلال را در PAR با مدل ها دو برابر اندازه خود ارائه می دهد.
این فقط در مورد کارآمدتر کردن هوش مصنوعی نیست. این در مورد دسترسی بیشتر آن است. مایکروسافت PHI-4 را برای تصویب گسترده قرار داده است و آن را از طریق ریخته گری Azure AI ، بغل کردن صورت و کاتالوگ API NVIDIA در دسترس قرار داده است. هدف واضح است: هوش مصنوعی که در پشت سخت افزار گران قیمت یا زیرساخت های عظیم قفل نشده است ، اما موردی که می تواند در دستگاه های استاندارد ، در حاشیه شبکه ها و در صنایعی که قدرت محاسبه کمیاب است ، کار کند.
Masaya Nishimaki ، مدیر شرکت AI Japane Firm Headwaters ، Ltd. ، تأثیر آن را به دست می گیرد. وی در بیانیه ای گفت: “Edge AI عملکرد برجسته ای را حتی در محیط هایی با اتصالات شبکه ناپایدار یا جایی که محرمانه بودن از آن مهم است ، نشان می دهد.” این بدان معناست که هوش مصنوعی که می تواند در کارخانه ها ، بیمارستان ها ، وسایل نقلیه خودمختار کار کند ، مکانهایی که در آن به اطلاعات در زمان واقعی نیاز است ، اما در جایی که مدل های سنتی مبتنی بر ابر کم می شوند.
در هسته خود ، PHI-4 نشان دهنده تغییر در تفکر است. هوش مصنوعی فقط ابزاری برای کسانی نیست که بزرگترین سرورها و عمیق ترین جیب ها را دارند. این یک قابلیت است که اگر به خوبی طراحی شود ، می تواند در هر نقطه و برای هر کسی کار کند. انقلابی ترین چیز در مورد PHI-4 کاری نیست که می تواند انجام دهد-جایی است که می تواند آن را انجام دهد.