برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
دیوید سیلور و ریچارد ساتون ، دو دانشمند مشهور هوش مصنوعی ، در مقاله جدیدی استدلال می کنند که هوش مصنوعی در حال ورود به مرحله جدیدی است ، “دوران تجربه”. این جایی است که سیستم های هوش مصنوعی به طور فزاینده ای به داده های ارائه شده توسط انسان متکی هستند و با جمع آوری داده ها از و تعامل با جهان ، خود را بهبود می بخشند.
در حالی که این مقاله مفهومی و آینده نگر است ، اما پیامدهای مستقیمی برای بنگاه هایی دارد که هدف آنها ساخت و ساز با عوامل و سیستم های هوش مصنوعی آینده است.
هر دو Silver و Sutton دانشمندان فصلی با سابقه ای در مورد پیش بینی های دقیق درباره آینده هوش مصنوعی هستند. پیش بینی های اعتبار را می توان به طور مستقیم در پیشرفته ترین سیستم های هوش مصنوعی امروز مشاهده کرد. در سال 2019 ، Sutton ، پیشگام در یادگیری تقویت ، مقاله معروف “درس تلخ” را نوشت ، که در آن او استدلال می کند که بزرگترین پیشرفت طولانی مدت در AI به طور مداوم ناشی از اعمال محاسبات در مقیاس بزرگ با روش های جستجوی عمومی و یادگیری است ، به جای اینکه عمدتاً بر روی دانش پیچیده و پیچیده و پیچیده دانش خود داشته باشد.
دیوید سیلور ، دانشمند ارشد Deepmind ، یکی از مهمترین های Alphago ، Alphazero و Alphastar بود ، همه دستاوردهای مهم در یادگیری تقویت عمیق. او همچنین نویسنده مقاله در سال 2021 بود که ادعا می کرد که یادگیری تقویت شده و یک سیگنال پاداش به خوبی طراحی شده برای ایجاد سیستم های هوش مصنوعی بسیار پیشرفته کافی خواهد بود.
پیشرفته ترین مدل های بزرگ زبان (LLMS) از این دو مفهوم بهره می برد. موج LLM های جدید که صحنه AI را فتح کرده اند از آنجا که GPT-3 در درجه اول به مقیاس بندی محاسبات و داده ها برای درونی کردن مقادیر گسترده دانش متکی است. جدیدترین موج مدلهای استدلال ، مانند Deepseek-R1 ، نشان داده است که یادگیری تقویت و یک سیگنال پاداش ساده برای یادگیری کافی است مهارت های استدلال پیچیده.
دوره تجربه چیست؟
“دوران تجربه” بر همان مفاهیمی که ساتون و نقره در سالهای اخیر در مورد آنها بحث کرده اند ، بنا شده و آنها را با پیشرفت های اخیر در هوش مصنوعی سازگار می کند. نویسندگان استدلال می كنند كه “سرعت پیشرفتی كه صرفاً با یادگیری تحت نظارت داده های انسانی انجام می شود ، به طرز آشکارا كاهش می یابد و نیاز به یك رویکرد جدید را نشان می دهد.”
و این رویکرد به منبع جدیدی از داده ها نیاز دارد ، که باید به گونه ای تولید شود که با قوی تر شدن عامل ، به طور مداوم بهبود یابد. Sutton و Silver می نویسند: “این امر می تواند با اجازه دادن به نمایندگان از تجربه خود ، یعنی داده هایی که توسط نماینده در تعامل با محیط خود ایجاد می شود ، به طور مداوم یاد بگیرند.” آنها استدلال می كنند كه سرانجام ، “تجربه به واسطه غالب بهبود تبدیل می شود و در نهایت مقیاس داده های انسانی مورد استفاده در سیستم های امروز را كاهش می دهد.”
به گفته نویسندگان ، علاوه بر یادگیری از داده های تجربی خود ، سیستم های هوش مصنوعی آینده “محدودیت های سیستم های هوش مصنوعی انسان محور” را در چهار بعد از بین می برند:
- جریان ها: به جای کار کردن در قسمت های قطع شده ، عوامل هوش مصنوعی “تجربه خود را تجربه می کنند که مانند انسان در طی یک مقیاس طولانی پیشرفت می کند.” این امر به نمایندگان این امکان را می دهد تا برای اهداف بلند مدت برنامه ریزی کنند و با گذشت زمان با الگوهای جدید رفتاری سازگار شوند. ما می توانیم درخشش های این را در سیستم های هوش مصنوعی مشاهده کنیم که دارای ویندوز زمینه ای بسیار طولانی و معماری حافظه هستند که به طور مداوم بر اساس تعامل کاربر به روز می شوند.
- اقدامات و مشاهدات: به جای تمرکز بر اقدامات و مشاهدات با توجه به انسان ، عوامل در دوران تجربه در دنیای واقعی به طور مستقل عمل می کنند. نمونه هایی از این سیستم های عامل هستند که می توانند از طریق ابزارهایی مانند استفاده از رایانه و پروتکل زمینه مدل (MCP) با برنامه ها و منابع خارجی در تعامل باشند.
- پاداش: سیستم های یادگیری تقویت فعلی بیشتر به عملکردهای پاداش طراحی شده توسط انسان متکی هستند. در آینده ، عوامل هوش مصنوعی باید بتوانند توابع پاداش پویا خود را طراحی کنند که به مرور زمان سازگار شوند و ترجیحات کاربر را با سیگنال های دنیای واقعی که از اقدامات و مشاهدات عامل در جهان جمع شده اند ، مطابقت دهند. ما شاهد نسخه های اولیه پاداش های خود طراحی با سیستمهایی مانند Dreureka Nvidia هستیم.
- برنامه ریزی و استدلال: مدل های استدلال فعلی برای تقلید از روند تفکر انسان طراحی شده اند. نویسندگان استدلال می کنند که “مکانیسم های کارآمدتر اندیشه مطمئناً با استفاده از زبانهای غیر انسانی وجود دارد که به عنوان مثال ممکن است از محاسبات نمادین ، توزیع شده ، مداوم یا متفاوت استفاده کنند.” عوامل هوش مصنوعی باید با جهان درگیر شوند ، داده ها را برای تأیید و به روزرسانی روند استدلال خود مشاهده و استفاده کنند و یک مدل جهانی را توسعه دهند.
ایده عوامل هوش مصنوعی که خود را از طریق یادگیری تقویت با محیط خود سازگار می کنند ، چیز جدیدی نیست. اما پیش از این ، این عوامل محدود به محیط های بسیار محدود مانند بازی های تخته ای بودند. امروزه ، عوامل که می توانند با محیط های پیچیده (به عنوان مثال ، استفاده از رایانه هوش مصنوعی) در تعامل باشند و پیشرفت در یادگیری تقویت ، بر این محدودیت ها غلبه می کند و انتقال به دوران تجربه را به همراه خواهد داشت.
این برای شرکت چیست؟
دفن شده در مقاله Sutton و Silver ، مشاهده ای است که پیامدهای مهمی برای کاربردهای دنیای واقعی خواهد داشت: “عامل ممکن است از اقدامات و مشاهدات” دوستانه انسانی “مانند رابط های کاربر استفاده کند ، که به طور طبیعی ارتباط و همکاری با کاربر را تسهیل می کند. مأمور همچنین ممکن است اقدامات” ماشین دوستانه “را انجام دهد که کدگذاری کد و APIS APIS را انجام می دهد و APIS APIS APIS را به صورت خودکار انجام می دهد.
دوران تجربه به این معنی است که توسعه دهندگان مجبورند برنامه های خود را نه تنها برای انسان بلکه با عوامل هوش مصنوعی در ذهن بسازند. اقدامات سازگار با ماشینی نیاز به ایجاد API های ایمن و در دسترس دارد که به راحتی به طور مستقیم یا از طریق رابط هایی مانند MCP قابل دسترسی است. این همچنین به معنای ایجاد عوامل است که می توانند از طریق پروتکل هایی مانند Google’s Agent2Agent قابل کشف باشند. برای دسترسی به اقدامات و مشاهدات ، باید API و رابط های عامل خود را نیز طراحی کنید. این امر به نمایندگان این امکان را می دهد تا به تدریج از تعامل آنها با برنامه های شما استدلال و یاد بگیرند.
اگر این دیدگاه که Sutton و Silver Present به واقعیت تبدیل می شوند ، به زودی میلیاردها نماینده در سراسر وب (و به زودی در دنیای فیزیکی) برای انجام وظایف در حال گردش خواهند بود. رفتارها و نیازهای آنها با کاربران و توسعه دهندگان انسانی بسیار متفاوت خواهد بود و داشتن یک روش دوستانه برای تعامل با برنامه شما باعث بهبود توانایی شما در استفاده از سیستم های هوش مصنوعی آینده می شود (و همچنین از آسیب هایی که می توانند ایجاد کنند).
ساتون و نقره می نویسند: “با ایجاد پایه های RL و تطبیق اصول اصلی آن با چالش های این دوره جدید ، می توانیم پتانسیل کامل یادگیری خودمختار را باز کنیم و راه را برای هوش فوق العاده انسانی هموار کنیم.”
DeepMind از ارائه نظرات اضافی برای داستان خودداری کرد.
ارسال پاسخ