برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
مبتنی بر ترانسفورماتور مدل های بزرگ زبان (LLMS) پایه و اساس چشم انداز مدرن AI AI است.
ترانسفورماتورها تنها راه انجام نیستند Gen Ai ، هر چند. در طول سال گذشته ، Mamba ، رویکردی که از مدل های فضایی حالت ساختاری (SSM) استفاده می کند ، همچنین تصویب را به عنوان یک رویکرد جایگزین از چندین فروشندگان انتخاب کرده است ، از جمله غول AI21 و AI Silicon Nvidia.
Nvidia برای اولین بار در مورد مفهوم مدل های Mamba-با قدرت در سال 2024 بحث کرد که در ابتدا تحقیقات Mambavision و برخی از مدل های اولیه را منتشر کرد. این هفته ، NVIDIA با یک سری مدل های Mambavision به روز شده در بغل کردن Face ، در تلاش اولیه خود در حال گسترش است.
همانطور که از نام آن پیداست ، Mambavision یک خانواده مدل مبتنی بر Mamba برای دیدگاه رایانه و وظایف تشخیص تصویر است. وعده Mambavision برای شرکت این است که می تواند به لطف نیازهای محاسباتی پایین ، با هزینه های بالقوه پایین تر ، کارآیی و صحت عملیات بینایی را بهبود بخشد.
SSM ها چیست و چگونه آنها با ترانسفورماتورها مقایسه می شوند؟
SSM ها یک کلاس معماری شبکه عصبی هستند که داده های متوالی را متفاوت از ترانسفورماتورهای سنتی پردازش می کنند.
در حالی که ترانسفورماتورها از مکانیسم های توجه برای پردازش همه نشانه ها در رابطه با یکدیگر استفاده می کنند ، داده های توالی مدل SSMS به عنوان یک سیستم پویا مداوم.
Mamba یک اجرای SSM خاص است که برای پرداختن به محدودیت های مدل های SSM قبلی ساخته شده است. این مدل سازی فضای انتخابی را معرفی می کند که به صورت پویا با داده های ورودی و طراحی آگاه سخت افزاری برای استفاده از GPU کارآمد سازگار است. Mamba قصد دارد ضمن استفاده از منابع محاسباتی کمتری ، عملکرد قابل مقایسه با ترانسفورماتورها را در بسیاری از کارها ارائه دهد
Nvidia با استفاده از معماری ترکیبی با Mambavision برای تحول در دید رایانه
ترانسفورماتورهای بینایی سنتی (VIT) طی چند سال گذشته بر دید رایانه ای با کارایی بالا حاکم شده اند ، اما با هزینه محاسباتی قابل توجهی. رویکردهای خالص مبتنی بر مامبا ، در حالی که کارآمدتر است ، تلاش کرده اند تا عملکرد ترانسفورماتور را بر روی وظایف بینایی پیچیده که نیاز به درک زمینه جهانی دارند ، مطابقت دهد.
Mambavision با اتخاذ یک رویکرد ترکیبی ، این شکاف را پل می کند. Mambavision Nvidia یک مدل ترکیبی است که از نظر استراتژیک کارآیی Mamba را با قدرت مدل سازی ترانسفورماتور ترکیب می کند.
نوآوری این معماری در فرمولاسیون مجدد Mamba طراحی شده است که به طور خاص برای مدل سازی ویژگی های بصری مهندسی شده است ، که با قرار دادن استراتژیک بلوک های خودآگاهی در لایه های نهایی تقویت می شود تا وابستگی های مکانی پیچیده ای را به خود جلب کند.
بر خلاف مدل های دید متعارف که منحصراً به مکانیسم های توجه یا رویکردهای حلقوی متکی هستند ، معماری سلسله مراتبی Mambavision هر دو پارادایم را به طور همزمان استفاده می کند. این مدل اطلاعات بصری را از طریق عملیات مبتنی بر اسکن پی در پی از مامبا انجام می دهد و در عین حال خود را با توجه به مدل جهانی استفاده می کند-به طور موثری بهترین های هر دو جهان را بدست می آورد.
Mambavision اکنون 740 میلیون پارامتر دارد
مجموعه جدیدی از مدل های Mambavision که در Huggi منتشر شدNG FACE تحت مجوز کد منبع NVIDIA در دسترس است که یک مجوز باز است.
انواع اولیه Mambavision منتشر شده در سال 2024 شامل انواع T و T2 است که در کتابخانه Imagenet-1K آموزش داده شده اند. مدل های جدید منتشر شده در این هفته شامل انواع L/L2 و L3 است که مدل های مقیاس پذیر هستند.
علی هاتامیزاده ، دانشمند ارشد تحقیقات در Nvidia ، در یک پست بحث و گفتگو چهره در آغوش نوشت: “از زمان انتشار اولیه ، ما Mambavision را به طور قابل توجهی افزایش داده ایم و آن را به 740 میلیون پارامتر چشمگیر تبدیل کرده ایم.” “ما همچنین با استفاده از مجموعه داده های بزرگتر Imagenet-21K ، رویکرد آموزش خود را گسترش داده ایم و پشتیبانی بومی را برای وضوح بالاتر معرفی کرده ایم ، که اکنون تصاویر را با 256 و 512 پیکسل در مقایسه با 224 پیکسل اصلی انجام داده ایم.”
طبق گفته NVIDIA ، مقیاس بهبود یافته در مدل های جدید Mambavision نیز عملکرد را بهبود می بخشد.
الکس فازیو ، مشاور مستقل هوش مصنوعی ، به VentureBeat توضیح داد که آموزش جدید مدل های Mambavision در مجموعه داده های بزرگتر باعث می شود که آنها در انجام کارهای متنوع تر و پیچیده تر بسیار بهتر شوند.
وی خاطرنشان کرد: مدل های جدید شامل انواع با وضوح بالا مناسب برای تجزیه و تحلیل دقیق تصویر هستند. Fazio گفت که این ترکیب همچنین با پیکربندی های پیشرفته ای که انعطاف پذیری و مقیاس پذیری بیشتری را برای بار کاری مختلف ارائه می دهد ، گسترش یافته است.
فازیو گفت: “از نظر معیارها ، انتظار می رود مدل های 2025 از 2024 بهتر عمل کنند زیرا آنها در مجموعه داده ها و وظایف بزرگتر بهتر تعمیم می دهند.
پیامدهای شرکت Mambavision
برای شرکتهای ساختمانی در زمینه کاربردهای رایانه ای ، تعادل عملکرد و کارآیی Mambavision امکانات جدیدی را باز می کند
کاهش هزینه های استنتاج: توان بهبود یافته به معنای نیازهای محاسبات GPU پایین تر برای سطح عملکرد مشابه در مقایسه با مدل های ترانسفورماتور است.
پتانسیل استقرار لبه: در حالی که هنوز هم بزرگ است ، معماری Mambavision برای بهینه سازی دستگاه های لبه نسبت به رویکردهای ترانسفورماتور خالص قابل تحمل است.
بهبود عملکرد کار پایین دست: دستاوردهای مربوط به کارهای پیچیده مانند تشخیص شی و تقسیم بندی مستقیماً به عملکرد بهتر برای برنامه های دنیای واقعی مانند مدیریت موجودی ، کنترل کیفیت و سیستم های خودمختار ترجمه می شود.
استقرار ساده: NVIDIA Mambavision را با آغوش ادغام چهره در آغوش گرفته و اجرای آن را با چند خط کد برای طبقه بندی و استخراج ویژگی ها ساده ساخت.
این به معنای استراتژی AI Enterprise چیست
Mambavision فرصتی برای شرکت ها برای استقرار سیستم های بینایی رایانه ای کارآمدتر است که دقت بالایی دارند. عملکرد قوی این مدل به این معنی است که به طور بالقوه می تواند به عنوان پایه ای همه کاره برای چندین برنامه دید رایانه ای در سراسر صنایع خدمت کند.
Mambavision هنوز هم تا حدودی تلاش اولیه است ، اما این نشان دهنده نگاهی اجمالی به آینده مدل های دید رایانه است.
Mambavision برجسته می کند که چگونه نوآوری معماری – نه فقط مقیاس – برای ایجاد پیشرفت های معنی دار در قابلیت های هوش مصنوعی مهم است. درک این پیشرفت های معماری برای تصمیم گیرندگان فنی برای انتخاب آگاهانه استقرار هوش مصنوعی به طور فزاینده ای بسیار مهم است.
ارسال پاسخ