ساکانا معماری جدید هوش مصنوعی ، "ماشین های فکر مداوم" را معرفی می کند تا مدل ها را با راهنمایی کمتری - مانند مغز انسان - دلیل ایجاد کند
ساکانا معماری جدید هوش مصنوعی ، "ماشین های فکر مداوم" را معرفی می کند تا مدل ها را با راهنمایی کمتری - مانند مغز انسان - دلیل ایجاد کند

ساکانا معماری جدید هوش مصنوعی ، “ماشین های فکر مداوم” را معرفی می کند تا مدل ها را با راهنمایی کمتری – مانند مغز انسان – دلیل ایجاد کند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


استارتاپ هوش مصنوعی مستقر در توکیو ، ساکانا ، که توسط دانشمندان سابق Google AI از جمله للیون جونز و دیوید هه بنیانگذاری شده است ، از نوع جدیدی از معماری مدل AI به نام دستگاه های فکر مداوم (CTM) رونمایی کرده است.

CTM ها به گونه ای طراحی شده اند که در دوره جدیدی از مدل های زبان هوش مصنوعی ، انعطاف پذیرتر و قادر به انجام طیف وسیع تری از کارهای شناختی-مانند حل مارپیچ های پیچیده یا کارهای ناوبری بدون نشانه های موقعیتی یا تعبیه های مکانی از قبل موجود-حرکت نزدیک به روشی که انسان از طریق مشکلات ناآشنا است-طراحی شده است.

به جای تکیه بر لایه های موازی ثابت و موازی که همه را به یکباره پردازش می کنند – همانطور که مدل های ترانسفورماتور انجام می دهند – CTM ها محاسبات را در مراحل موجود در هر واحد ورودی/خروجی ، که به عنوان یک “نورون” مصنوعی شناخته می شود ، باز می کنند.

هر نورون در مدل تاریخچه کوتاهی از فعالیت قبلی خود را حفظ می کند و از آن حافظه استفاده می کند تا تصمیم بگیرد چه موقع دوباره فعال شود.

این وضعیت داخلی اضافه شده به CTM ها اجازه می دهد تا بسته به پیچیدگی کار ، عمق و مدت استدلال خود را به صورت پویا تنظیم کنند. به همین ترتیب ، هر نورون به مراتب از نظر اطلاعاتی متراکم و پیچیده تر از یک مدل ترانسفورماتور معمولی است.

این استارتاپ مقاله ای را در مجله دسترسی آزاد Arxiv در مورد توصیف کار خود ، یک مخزن میکروسیت و GitHub منتشر کرده است.

چگونه CTM ها با LLM های مبتنی بر ترانسفورماتور متفاوت هستند

بیشتر مدل های مدرن زبان بزرگ (LLMS) هنوز هم اساساً مبتنی بر معماری “ترانسفورماتور” است که در مقاله منی 2017 از محققان Google Brain تحت عنوان “توجه همه شما نیاز دارید” بیان شده است.

این مدلها از لایه های عمق موازی و ثابت نورون های مصنوعی برای پردازش ورودی ها در یک پاس واحد استفاده می کنند-خواه این ورودی ها از زمان استفاده از کاربر در زمان استنباط یا داده های برچسب زده شده در حین آموزش باشد.

در مقابل ، CTM ها به هر نورون مصنوعی اجازه می دهند تا در جدول زمانی داخلی خود کار کنند و تصمیمات فعال سازی را بر اساس یک حافظه کوتاه مدت از حالتهای قبلی خود اتخاذ کنند. این تصمیمات در مورد مراحل داخلی معروف به “کنه” آشکار می شود و این مدل را قادر می سازد تا مدت زمان استدلال خود را به صورت پویا تنظیم کند.

این معماری مبتنی بر زمان به CTM ها اجازه می دهد تا به تدریج استدلال کنند ، و چه مدت آنها را محاسبه می کنند-تعداد متفاوتی از کنه ها را بر اساس پیچیدگی ورودی ، تنظیم می کنند.

حافظه و هماهنگ سازی خاص نورون به تعیین زمان محاسبه کمک می کند-یا متوقف شود.

تعداد کنه ها با توجه به اطلاعات وارد شده تغییر می کنند ، و حتی اگر اطلاعات ورودی یکسان باشد ممکن است کم و بیش باشد ، زیرا هر نورون تصمیم می گیرد که قبل از تهیه یک خروجی (یا عدم ارائه یکی از آنها) ، چند کنه را تحت تأثیر قرار دهید.

این نشانگر هم یک عزیمت فنی و هم فلسفی از یادگیری عمیق متعارف است و به سمت یک مدل بیولوژیکی بیشتر حرکت می کند. Sakana CTMS را به عنوان گامی به سمت هوش بیشتر مغز قاب بندی کرده است.

هدف ساکانا این است که “در نهایت به سطح صلاحیتی برسیم که رقیب یا پیشی از مغز انسان باشد.”

با استفاده از جدول زمانی متغیر و سفارشی برای ارائه اطلاعات بیشتر

CTM در حدود دو مکانیسم اصلی ساخته شده است.

اول ، هر نورون در مدل یک “تاریخ” کوتاه یا حافظه کاری را که در آن فعال شده است و چرا ، حفظ می کند و از این تاریخ استفاده می کند تا تصمیم بگیرد که چه موقع برای آتش سوزی بعدی آتش می گیرد.

دوم ، هماهنگ سازی عصبی – چگونه و چه زمانی گروه از سلولهای عصبی مصنوعی یک مدل “آتش” یا اطلاعات پردازش با هم – اجازه می دهد به صورت ارگانیک اتفاق بیفتد.

گروه هایی از نورون ها تصمیم می گیرند که بر اساس تراز داخلی ، نه دستورالعمل های خارجی یا شکل دهی پاداش ، چه موقع به هم آتش بزنند. این رویدادهای هماهنگ سازی برای تعدیل توجه و تولید خروجی ها استفاده می شود – یعنی توجه به مناطقی که نورون های بیشتری در آن شلیک می شوند ، توجه می شود.

این مدل فقط پردازش داده ها نیست بلکه زمان تفکر خود را برای مطابقت با پیچیدگی کار انجام می دهد.

با هم ، این مکانیسم ها به CTM ها اجازه می دهند ضمن استفاده از استدلال عمیق تر و طولانی تر در صورت لزوم ، بار محاسباتی را بر روی کارهای ساده تر کاهش دهند.

در تظاهرات از طبقه بندی تصویر و حل پیچ و خم 2D تا یادگیری تقویت ، CTM ها هم تفسیر و هم سازگاری را نشان داده اند. مراحل “فکر” داخلی آنها به محققان این امکان را می دهد تا نحوه تصمیم گیری ها را با گذشت زمان مشاهده کنند – سطح شفافیت به ندرت در سایر خانواده های مدل دیده می شود.

نتایج اولیه: نحوه مقایسه CTM ها با مدل های ترانسفورماتور در معیارها و وظایف کلیدی

دستگاه فکری مداوم ساکانا AI برای تعقیب نمرات معیار بالای تابلوی طراحی نشده است ، اما نتایج اولیه آن نشان می دهد که طراحی الهام گرفته از بیولوژیکی آن به هزینه توانایی عملی نمی رسد.

در معیار گسترده Imagenet-1K ، CTM 72.47 ٪ Top-1 و 89.89 ٪ دقت 5 را بدست آورد.

در حالی که این امر از مدل های پیشرفته ترین ترانسفورماتور مانند VIT یا ConvNext کم است ، اما با توجه به اینکه معماری CTM اساساً متفاوت است و صرفاً برای عملکرد بهینه نشده است ، رقابتی باقی می ماند.

آنچه بیشتر از همه برجسته است ، رفتارهای CTM در کارهای متوالی و تطبیقی ​​است. در سناریوهای حل کننده پیچ و خم ، این مدل خروجی های جهت دار مرحله به مرحله از تصاویر خام را تولید می کند-بدون استفاده از تعبیه های موقعیتی ، که به طور معمول در مدل های ترانسفورماتور ضروری هستند. آثار توجه بصری نشان می دهد که CTM ها اغلب در یک توالی شبیه انسان در مناطق تصویر حضور می یابند ، مانند شناسایی ویژگی های صورت از چشم به بینی به دهان.

این مدل همچنین کالیبراسیون قوی را نشان می دهد: برآورد اعتماد به نفس آن از نزدیک با دقت پیش بینی واقعی هماهنگ است. بر خلاف اکثر مدلهایی که نیاز به مقیاس گذاری دما یا تنظیمات بعد از تعقیب دارند ، CTM ها با میانگین پیش بینی ها در طول زمان ، کالیبراسیون را به طور طبیعی بهبود می بخشند زیرا استدلال داخلی آنها آشکار می شود.

این ترکیبی از استدلال پی در پی ، کالیبراسیون طبیعی و تفسیر ، تجارت ارزشمندی را برای برنامه هایی که در آن اعتماد و قابلیت ردیابی به اندازه دقت خام اهمیت دارد ، ارائه می دهد.

چه چیزی لازم است قبل از اینکه CTM ها برای شرکت و استقرار تجاری آماده شوند؟

در حالی که CTM ها قول قابل توجهی را نشان می دهند ، معماری هنوز تجربی است و هنوز برای استقرار تجاری بهینه نشده است. Sakana AI این مدل را به عنوان بستری برای تحقیق و اکتشاف بیشتر به جای یک راه حل سازمانی پلاگین و بازی ارائه می دهد.

آموزش CTM در حال حاضر منابع بیشتری را نسبت به مدل های استاندارد ترانسفورماتور می طلبد. ساختار زمانی پویا آنها فضای دولت را گسترش می دهد و برای اطمینان از یادگیری پایدار و کارآمد در مراحل داخلی داخلی ، تنظیم دقیق لازم است. علاوه بر این ، اشکال زدایی و پشتیبانی از ابزار هنوز هم در حال جلب توجه است-بسیاری از کتابخانه ها و پروفایل های امروز با مدل های بی وقفه در ذهن طراحی نشده اند.

با این وجود ، ساکانا پایه و اساس محکمی برای پذیرش جامعه گذاشته است. اجرای کامل CTM در GitHub منبع باز است و شامل اسکریپت های آموزشی خاص دامنه ، پاسگاه های پیش ساخته ، برنامه های ترسیم و ابزارهای تجزیه و تحلیل است. وظایف پشتیبانی شده شامل طبقه بندی تصویر (Imagenet ، Cifar) ، ناوبری پیچ و خم 2D ، QAMNIST ، محاسبه برابری ، مرتب سازی و یادگیری تقویت است.

یک نسخه ی نمایشی وب تعاملی همچنین به کاربران اجازه می دهد تا CTM را در عمل کشف کنند و مشاهده کنند که چگونه توجه آن به مرور زمان در هنگام استنتاج تغییر می کند – روشی قانع کننده برای درک جریان استدلال معماری.

برای رسیدن به CTMS به محیط های تولید ، پیشرفت بیشتری در بهینه سازی ، راندمان سخت افزار و ادغام با خطوط لوله استنتاج استاندارد لازم است. اما با داشتن کد در دسترس و اسناد فعال ، ساکانا این کار را برای محققان و مهندسان آسان کرده است که امروز آزمایش با این مدل را آغاز کنند.

چه رهبران هوش مصنوعی شرکت باید در مورد CTM ها بدانند

معماری CTM هنوز در روزهای ابتدایی خود است ، اما تصمیم گیرندگان سازمانی باید از قبل توجه داشته باشند. توانایی آن در تخصیص تخصیصی سازگار ، عمق استدلال خود تنظیم و ارائه تفسیر واضح ممکن است در سیستم های تولیدی که با پیچیدگی ورودی متغیر یا الزامات نظارتی دقیق روبرو هستند ، بسیار ارزشمند باشد.

مهندسان هوش مصنوعی مدیریت مدل استقرار در استنتاج با انرژی CTM-به ویژه در برنامه های بزرگ یا حساس به تأخیر-ارزش پیدا می کنند.

در همین حال ، استدلال گام به گام معماری ، توضیح غنی تر را باز می کند و سازمان ها را قادر می سازد نه تنها آنچه را که یک مدل پیش بینی کرده است ، بلکه نحوه رسیدن به آنجا را ردیابی کنند.

برای تیم های ارکستراسیون و MLOPS ، CTM ها با اجزای آشنا مانند رمزگذارهای مبتنی بر RESNET ادغام می شوند و این امکان را می دهد تا در گردش کار موجود باشد. و منجر به زیرساخت ها می تواند از قلاب های پروفایل معماری برای تخصیص بهتر منابع و نظارت بر پویایی عملکرد در طول زمان استفاده کند.

CTM ها آماده جایگزین ترانسفورماتورها نیستند ، اما آنها یک دسته جدید از مدل را با هزینه های جدید نشان می دهند. برای سازمانها در اولویت بندی ایمنی ، تفسیر و محاسبات تطبیقی ​​، معماری سزاوار توجه جدی است.

تاریخچه تحقیق هوش مصنوعی ساکانا

در ماه فوریه ، ساکانا مهندس AI CUDA را معرفی کرد ، یک سیستم AI عامل AI که برای خودکارسازی تولید هسته های بسیار بهینه Cuda طراحی شده است ، مجموعه دستورالعمل هایی که به واحدهای پردازش گرافیکی NVIDIA (و دیگران) اجازه می دهد تا به طور موازی در چندین “موضوعات” یا واحدهای محاسباتی را به طور موازی اجرا کنند.

این قول قابل توجه بود: سرعتهای 10 برابر تا 100 برابر در عملیات ML. با این حال ، اندکی پس از انتشار ، داوران خارجی دریافتند که این سیستم در حال سوءاستفاده از نقاط ضعف در ماسهبازی ارزیابی است – در اصل “تقلب” با دور زدن بررسی های صحت از طریق یک سوء استفاده از حافظه.

در یک پست عمومی ، ساکانا این موضوع را تصدیق کرد و اعضای جامعه را به پرچم گذاری آن اعتبار داد.

آنها از آن زمان ارزیابی و ابزارهای پروفایل در زمان اجرا را برای از بین بردن حفره های مشابه بازنگری کرده اند و بر این اساس نتایج و مقاله های تحقیق خود را تجدید نظر می کنند. این حادثه یک آزمایش در دنیای واقعی یکی از ارزشهای بیان شده ساکانا را ارائه داد: پذیرش تکرار و شفافیت در پیگیری سیستم های بهتر AI.

شرط بندی در مکانیسم های تکاملی

اخلاق بنیانگذار Sakana AI در ادغام محاسبات تکاملی با یادگیری ماشین مدرن است. این شرکت معتقد است که مدل های فعلی بسیار سفت و سخت هستند – به معماری های ثابت متصل هستند و برای انجام کارهای جدید نیاز به آموزش مجدد دارند.

در مقابل ، ساکانا قصد دارد مدلهایی را ایجاد کند که در زمان واقعی سازگار شوند ، رفتارهای ظهور را نشان دهند و به طور طبیعی از طریق تعامل و بازخورد مقیاس بگیرند ، دقیقاً مانند ارگانیسم ها در یک اکوسیستم.

این دید در حال حاضر در محصولاتی مانند Transformer² آشکار شده است ، سیستمی که پارامترهای LLM را در زمان استنتاج بدون بازآفرینی تنظیم می کند ، با استفاده از ترفندهای جبری مانند تجزیه ارزش های مفرد.

همچنین در تعهد آنها به سیستم های منبع باز مانند دانشمند هوش مصنوعی-حتی در میان بحث و جدال-مشهود است که تمایل به تعامل با جامعه تحقیقاتی گسترده تر را نشان می دهد ، نه فقط با آن رقابت می کند.

به عنوان افراد بزرگ مانند Openai و Google در مدل های بنیاد دو برابر می شوند ، ساکانا در حال ترسیم یک دوره متفاوت است: سیستم های کوچک ، پویا ، با الهام از نظر بیولوژیکی که به موقع فکر می کنند ، با طراحی همکاری می کنند و از طریق تجربه تکامل می یابند.