آنچه شما باید در مورد Amazon Nova Act بدانید: عامل جدید AI SDK به چالش کشیدن Openai ، Microsoft ، Salesforce
Amazon Nova Act benchmarks. Credit: Amazon

آنچه شما باید در مورد Amazon Nova Act بدانید: عامل جدید AI SDK به چالش کشیدن Openai ، Microsoft ، Salesforce

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


غول خواب بیدار شده است!

برای مدتی ، به نظر می رسید که آمازون در این مسابقه بازی می کند تا کاربران خود را ارائه دهد-به ویژه میلیون ها توسعه دهنده که در بالای زیرساخت های ابری آمازون (AWS) قرار دارند-مدل ها و ابزارهای هوش مصنوعی شخص اول را قانع کننده می کنند.

اما در اواخر سال 2024 ، این خانواده مدل بنیاد داخلی خود ، آمازون نوا را با متن ، تصویر و حتی قابلیت های تولید فیلم آغاز کرد و ماه گذشته شاهد دستیار صوتی جدید آمازون الکسا بود که بخشی از آن توسط خانواده مدلهای کلود انسان شناسی بود.

سپس ، روز دوشنبه ، تجارت الکترونیکی و Cloud Giant بخش اطلاعات عمومی Amazon Amazon Amazon Amazon Amazon Act ، یک کیت توسعه دهنده آزمایشی برای ساخت عوامل هوش مصنوعی که می توانند در وب و کارهای خود به طور مستقل حرکت کنند ، از نسخه عرف ، اختصاصی مدل بزرگ زبان نوا آمازون (LLM) اعلام کرده است. اوه ، و کیت توسعه دهنده استاندارد (SDK) منبع باز تحت مجوز مجاز Apache 2.0 است ، اگرچه SDK برای کار فقط با مدل سفارشی داخلی آمازون نوا طراحی شده است ، نه شخص ثالث.

هدف این است که توسعه دهندگان شخص ثالث را قادر سازند تا عوامل هوش مصنوعی را بسازند که قادر به انجام کارهای قابل اعتماد در مرورگرهای وب باشند.

اما چگونه Amazon's Nova Act با سایر سیستم عامل های ساختمانی نماینده در آنجا ، مانند Autogen Microsoft ، Salesforce's AgentForce و البته OpenAi که اخیراً SDK منتشر شده است ، OpenAI را جمع می کند؟

یک رویکرد متفاوت و متفکرتر برای عوامل هوش مصنوعی

از زمان ظهور عمومی مدل های بزرگ زبان (LLM) ، بیشتر سیستم های “عامل” محدود به پاسخ به زبان طبیعی یا ارائه اطلاعات با پرس و جو از پایگاه های دانش بوده اند.

NOVA ACT بخشی از تغییر صنعت بزرگتر به سمت عوامل مبتنی بر عمل است-سیستم های سیستم هایی که می توانند وظایف واقعی را در محیط های دیجیتال به نمایندگی از کاربر انجام دهند. پاسخ های جدید OpenAi API ، که به کاربران امکان دسترسی به مرورگر خودمختار خود را می دهد ، نمونه اصلی این است که توسعه دهندگان می توانند از طریق OpenAi Agents SDK در عوامل AI ادغام شوند.

آمازون AGI تأکید می کند که سیستم های عامل فعلی ، در حالی که امیدوار هستند ، با قابلیت اطمینان مبارزه می کنند و اغلب به نظارت انسانی نیاز دارند ، به خصوص هنگام کار با گردش کار چند مرحله ای یا پیچیده.

ACT NOVA به طور خاص برای پرداختن به این محدودیت ها با ارائه مجموعه ای از دستورات تجویز اتمی که می توانند در جریان کار قابل اعتماد قرار بگیرند ، طراحی شده است.

Deniz Birlikci ، عضو کادر فنی در آمازون ، چشم انداز گسترده تری را در ویدئویی که NOVA ACT را معرفی می کند ، توصیف کرد: به زودی ، عوامل هوش مصنوعی بیشتری نسبت به افرادی که وب را مرور می کنند ، انجام می دهند و وظایف خود را از طرف کاربران انجام می دهند.

https://www.youtube.com/watch؟v=jllapxwmalu

دیوید لوان ، VP از تیم خودمختاری آمازون و رئیس آزمایشگاه AGI SF ، این مأموریت را مستقیماً در مصاحبه تماس ویدیویی اخیر با VentureBeat تنظیم کرد: “ما این مدل جدید آزمایشی AI را ایجاد کرده ایم که برای انجام اقدامات در یک مرورگر وب آموزش دیده است. اساساً ، ما فکر می کنیم که مأمورین ساختمان محاسبات هستند.”

لوان ، که قبلاً بنیانگذار و مدیرعامل Adept AI بود ، در سال 2024 به عنوان بخشی از اجاره AQCUI به آمازون پیوست. لوان گفت که مدتهاست که طرفدار عوامل هوش مصنوعی بوده است. وی افزود: “با Adept ، ما اولین شرکتی بودیم که واقعاً کار خود را روی نمایندگان هوش مصنوعی شروع کردیم. در این مرحله ، همه می دانند که عوامل مهم چقدر مهم هستند. بسیار جالب بود که کمی از زمان ما جلوتر باشیم.”

آنچه نوا ACT ارائه می دهد

NOVA ACT SDK چارچوبی را برای ساخت عوامل اتوماسیون مبتنی بر وب با استفاده از فشارهای زبان طبیعی در مراحل روشن و قابل کنترل فراهم می کند.

بر خلاف عوامل معمولی دارای LLM که تمام جریان های کار را از یک فوریت واحد-که اغلب منجر به رفتار غیرقابل اعتماد می شود-تلاش می کنند ، قانون Nova برای اجرای تدریجی کارهای کوچکتر و قابل اثبات طراحی شده است.

برخی از ویژگی های اصلی قانون نوا عبارتند از:

  • تجزیه کار ریز و درشت: توسعه دهندگان می توانند گردش کار دیجیتالی پیچیده را به تماس های کوچکتر () () تبدیل کنند که هر یک عامل را برای انجام تعامل خاص UI هدایت می کند.
  • دستکاری مستقیم مرورگر از طریق نمایشنامه نویس: NOVA ACT با ادغام نمایشنامه نویس، یک چارچوب اتوماسیون مرورگر منبع باز ساخته شده توسط مایکروسافتبشر نمایشنامه نویس به توسعه دهندگان این امکان را می دهد تا مرورگرهای وب را به صورت برنامه ای کنترل کنند – با کلیک بر روی عناصر ، پر کردن فرم ها یا پیمایش صفحات – بدون اینکه فقط به پیش بینی های هوش مصنوعی بپردازند. این ادغام به ویژه برای انجام کارهای حساس مانند وارد کردن رمزهای عبور یا جزئیات کارت اعتباری مفید است. به عنوان مثال ، به جای ارسال اطلاعات حساس به مدل ، توسعه دهندگان می توانند به Nova Act دستور دهند تا روی یک قسمت رمز عبور تمرکز کنند و سپس از API های نمایشنامه نویسی استفاده کنند تا ایمن رمز ورود را وارد کنند بدون اینکه مدل آن را ببیند. این رویکرد به تقویت امنیت و حریم خصوصی هنگام اتوماسیون تعامل وب کمک می کند.
  • ادغام پایتون: SDK به توسعه دهندگان این امکان را می دهد تا کد پایتون را با دستورات NOVA ACT ، از جمله ابزارهای استاندارد پایتون مانند نقاط شکست ، ادعاها یا جمع آوری نخ برای اجرای موازی ، در هم آمیخته کنند.
  • استخراج اطلاعات ساختاری: SDK از استخراج داده های ساختار یافته از طریق طرحواره های Pydantic پشتیبانی می کند و به عوامل این امکان را می دهد تا محتوای صفحه را به قالب های ساختاری تبدیل کنند.
  • موازی سازی و برنامه ریزی: توسعه دهندگان می توانند چندین نمونه ACT NOVA را همزمان اجرا کنند و گردش کار خودکار را بدون نیاز به نظارت مداوم انسانی برنامه ریزی کنند.

لوان تأکید کرد که NOVA ACT ابزاری برای توسعه دهندگان است نه یک چت بابات با هدف کلی. وی گفت: “NOVA ACT برای توسعه دهندگان ساخته شده است. این یک چت بابات نیست که برای تفریح ​​با آن صحبت می کنید. این طراحی شده است تا توسعه دهندگان شروع به ساخت محصولات مفید کنند.”

به عنوان مثال ، یکی از نمونه های کاری که در مستندات آمازون نشان داده شده است نشان می دهد که چگونه NOVA ACT می تواند با استفاده از لیست های اجاره ای و محاسبه فاصله دوچرخه سواری تا ایستگاه های قطار ، جستجوهای آپارتمان را به صورت خودکار انجام دهد و سپس نتایج را در یک جدول ساختاری مرتب کند.

یک مثال نمایشی دیگر از Act Nova برای سفارش یک سالاد خاص از Sweetgreen هر سه شنبه ، کاملاً هندزفری و در یک برنامه استفاده می کند و نشان می دهد که چگونه توسعه دهندگان می توانند وظایف دیجیتالی قابل تکرار را به گونه ای انجام دهند که احساس قابل اعتماد و قابل تنظیم کند.

عملکرد معیار و تمرکز بر قابلیت اطمینان

یک پیام اصلی در اطلاعیه آمازون این است که قابلیت اطمینان ، نه فقط اطلاعات ، مانع اصلی پذیرش نماینده گسترده است.

به گفته آمازون ، مدلهای پیشرفته فعلی در واقع در نیروهای هوش مصنوعی کاملاً شکننده هستند و مأمورین به طور معمول 30 ٪ تا 60 ٪ موفقیت در کارهای چند مرحله ای مبتنی بر مرورگر را می رسانند.

با این حال ، قانون نوا بر روی رویکرد بلوک ساختمان تأکید می کند و بیش از 90 ٪ در ارزیابی های داخلی کارهایی که مدل های دیگر را به چالش می کشد-مانند تعامل با کشویی ، انتخاب کننده تاریخ یا پاپ آپ ، به دست می آید.

لوان تأکید کرد که چرا این قابلیت اطمینان اهمیت دارد. وی گفت: “آنچه ما واقعاً روی آن متمرکز شده ایم این است که چگونه شما واقعاً نمایندگان را قابل اعتماد می کنید؟ اگر از آن بخواهید که یک رکورد در Salesforce را به روز کنید و یک پایگاه داده خود را از ده بار حذف کند ، احتمالاً هرگز نمی خواهید از آن استفاده کنید.”

آمازون AGI معیار NOVA را در برابر مدل های رقیب از جمله Claude 3.7 Sonnet Anthropic's Claude و مدل CUA Openai معیار کرد. در معیار متن وب صفحه نمایش ، که تست دستورالعمل های مربوط به عناصر صفحه نمایش متنی را آزمایش می کند ، NOVA ACT نمره 0.939 را بدست آورد ، از غزل Claude 3.7 (0.900) و Openai CuA (0.883) بهتر است.

معیارهای AMAMON NOVA ACT. اعتبار: آمازون

در معیار نماد وب صفحه نمایش ، که بر روی عناصر بصری UI متمرکز است ، Nova Act 0.879 به ثمر رساند ، دوباره از سایر مدل ها.

با این حال ، در معیار وب Groundui ، که تعامل عمومی UI را آزمایش می کند ، NOVA ACT 0.805 به ثمر رساند ، کمی پشت رقبای خود.

این نمرات در داخل توسط آمازون با استفاده از دستورالعمل های مداوم و معیارهای ارزیابی اندازه گیری شد.

آمازون همچنین نتایج اولیه را در توانایی نوا ACT در تعمیم فراتر از محیط های استاندارد برجسته کرد.

به عنوان مثال ، عضو تیم ریک لیو نشان داد که چگونه نماینده ، بدون آموزش صریح ، با موفقیت با یک بازی وب با مضمون کبوتر تعامل برقرار کرد-تسهیل آمار ، مبارزه با حریفان و پیشرفت در بازی.

به گفته لوان ، این توانایی تعمیم برای دید بلند مدت اساسی است. وی گفت: “هدف ما با Nova Act این است که یک راه حل جهانی استفاده از مرورگر باشد. ما یک عامل می خواهیم که بتواند هر کاری را که می خواهید روی رایانه برای شما انجام دهد انجام دهد.”

انعطاف پذیر برای استفاده در ابرهای مختلف ، اما به مدل نوا آمازون قفل شده است

در حالی که Nova Act از طریق Nova.Amazon.com در سطح جهانی در دسترس است ، لوان توضیح داد که این سیستم به طور محکم با مدل های بنیاد داخلی NOVA آمازون همراه است.

توسعه دهندگان نمی توانند LLM های خارجی مانند GPT-4O OpenAi یا Claude 3.7 غزل Antropiic را بر خلاف Agents's Agents SDK و به میزان کمتری ، سیستم عامل های Autogen و Salesforce AgentForce (که امکان تغییر در چند شرکت ارائه دهنده مختلف و خانواده های مدل را فراهم می کند) وصل کنید.

وی گفت: “NOVA ACT یک نسخه آموزش دیده سفارشی از مدل نوا است.” “این فقط یک داربست بر روی LLM عمومی نیست. این به طور بومی آموزش داده شده است که از طرف شما در اینترنت عمل کنید.”

با این حال ، قانون نوا محدود به محیط های AWS نیست. توسعه دهندگان می توانند SDK را بارگیری کرده و آن را به صورت محلی ، در ابر یا هر کجا که انتخاب کنند ، اجرا کنند. لوان اظهار داشت: “شما برای استفاده از آن نیازی به AWS ندارید.”

بنابراین ، برای مشاغلی که به دنبال حداکثر انعطاف پذیری مدل اساسی برای نمایندگان خود هستند ، ACT NOVA احتمالاً بهترین انتخاب نیست. با این حال ، برای کسانی که به دنبال یک مدل هدفمند هستند که به طور خاص برای حرکت در وب و انجام اقدامات در وب سایت های متنوعی با رابط های کاربر بسیار متفاوت (UIS) طراحی شده است ، احتمالاً ارزش دیدن دارد-به خصوص اگر در حال حاضر در اکوسیستم Amazon یا AWS هستید.

امنیت ، مجوز و قیمت گذاری

NOVA ACT SDK تحت مجوز Apache ، نسخه 2.0 (ژانویه 2004) ، مجوز منبع باز منتشر می شود. با این حال ، این فقط مربوط به نرم افزار SDK است.

مدل Nova Act خود به همراه وزن و داده های آموزش خود اختصاصی است و منبع بسته است. به گفته لوان ، این رویکرد عمدی است ، که توضیح داد که این مدل برای دستیابی به قابلیت اطمینان کاملاً یکپارچه و با SDK آموزش دیده است.

در هنگام راه اندازی ، NOVA ACT به عنوان پیش نمایش تحقیق رایگان ارائه می شود. هنوز هیچ قیمت اعلام شده برای استفاده از تولید وجود ندارد.

لوان این مرحله را فرصتی برای توسعه دهندگان برای آزمایش و ساخت فناوری توصیف کرد. وی گفت: “اعتقاد ما این است که اکثر محصولات مفید عامل هنوز ساخته نشده اند. ما می خواهیم کسی را قادر سازیم که یک عامل واقعاً مفید ، چه برای خود و چه به عنوان یک محصول ، بسازد.”

طولانی مدت ، آمازون قصد دارد شرایط درجه تولید را از جمله ضمانت های صورتحساب و مقیاس بندی مبتنی بر استفاده معرفی کند ، اما هنوز این موارد در دسترس نیست.

بعد برای NOVA ACT چیست؟

انتشار قانون نوا نشان دهنده جاه طلبی گسترده تر آمازون برای تبدیل عوامل AI با محوریت AI به مؤلفه اساسی محاسبات است.

لوان فرصت پیش رو را خلاصه کرد: “رویای شخصی من این است که مأمورین به ساختمان محاسبات تبدیل می شوند و جالبترین راه اندازی ها و محصولات جدید در بالای آنچه تیم ما در حال توسعه است ساخته می شوند.”

NOVA ACT SDK اکنون برای آزمایش و نمونه سازی در وب سایت آمازون و در GitHub در دسترس است.