نماینده فوق العاده ژنسپارک در مسابقه عامل عمومی AI Ante را صعود می کند
نماینده فوق العاده ژنسپارک در مسابقه عامل عمومی AI Ante را صعود می کند

نماینده فوق العاده ژنسپارک در مسابقه عامل عمومی AI Ante را صعود می کند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


منظره عامل AI با هدف کلی ناگهان بسیار شلوغ تر و جاه طلب تر است.

این هفته ، Genspark مبتنی بر پالو آلتو آنچه را که آن را Super Agent می نامد ، یک سیستم خودمختار با حرکت سریع که برای انجام کارهای دنیای واقعی در طیف گسترده ای از دامنه ها طراحی شده است-از جمله برخی از آنها باعث ایجاد ابروها ، مانند برقراری تماس تلفنی به رستوران ها با استفاده از صدای مصنوعی واقع گرایانه ، منتشر کرد.

این پرتاب باعث می شود که چه چیزی شکل می گیرد تا یک جبهه جدید مهم در رقابت AI ​​باشد: چه کسی اولین عامل قابل اعتماد ، انعطاف پذیر و واقعاً مفید را ایجاد می کند؟ شاید فوری تر ، این برای شرکت ها چه معنی دارد؟

https://www.youtube.com/watch؟v=mxjkgf37rae

راه اندازی Genspark فقط سه هفته پس از یک راه اندازی متفاوت در چین ، Manus ، به دلیل توانایی خود در هماهنگی ابزارها و منابع داده برای انجام کارهای ابری ناهمزمان مانند رزرو سفر ، غربالگری رزومه و تجزیه و تحلیل سهام-همه بدون توجه به دست و دستمزد معمولی اکثر عوامل فعلی ، توجه کرد.

ژنسپارک اکنون ادعا می کند که حتی بیشتر پیش می رود. به گفته بنیانگذار اریک جینگ ، Super Agent بر روی سه ستون ساخته شده است: کنسرتی از نه LLM های مختلف ، بیش از 80 ابزار و بیش از 10 مجموعه داده اختصاصی-همه با هم در یک جریان هماهنگ کار می کنند. این کار فراتر از چت های سنتی ، اداره گردش کار پیچیده و بازگشت نتایج کاملاً اجرا شده است.

در یک نسخه ی نمایشی ، نماینده ژنسپارک یک سفر کامل پنج روزه سن دیگو را برنامه ریزی کرد ، مسافت های پیاده روی بین جاذبه ها ، گزینه های حمل و نقل عمومی را محاسبه کرد و سپس از یک عامل تماس صوتی برای رزرو رستوران ها ، از جمله دست زدن به آلرژی های غذایی و ترجیحات صندلی استفاده کرد. نسخه ی نمایشی دیگر نشان داد که با تولید مراحل دستور العمل ، صحنه های ویدیویی و پوشش های صوتی ، یک حلقه ویدیوی پخت و پز ایجاد می کند. در یک سوم ، آن را یک قسمت انیمیشن به سبک پارک جنوبی نوشت و تولید کرد ، و در مورد رسوایی سیاسی اخیر Signalgate که شامل به اشتراک گذاری برنامه های جنگ با یک خبرنگار سیاسی بود ، نوشت.

این ممکن است به نظر برسد که متمرکز بر مصرف کننده باشد ، اما آنها به نمایش در می آیند که این فناوری به سمت آن هدایت می شود-به سمت اتوماسیون کار چند مرحله ای و چند مرحله ای که خط بین تولید خلاق و اجرای آن را محو می کند.

جینگ در این ویدئو می گوید: “حل این مشکلات در دنیای واقعی بسیار سخت تر از آن چیزی است که فکر می کردیم ،” اما ما از پیشرفتی که انجام داده ایم هیجان زده هستیم. “

یکی از ویژگی های قانع کننده: Super Agent به وضوح روند تفکر خود را به وضوح تجسم می کند ، و چگونه می تواند در هر مرحله دلایل آن را ردیابی کند ، کدام ابزار را فراخوانی می کند و چرا. تماشای این منطق در زمان واقعی باعث می شود سیستم کمتر مانند یک جعبه سیاه و بیشتر شبیه یک شریک مشترک باشد. این همچنین می تواند به توسعه دهندگان سازمانی الهام بخش باشد تا مسیرهای استدلال قابل ردیابی مشابه را در سیستم های هوش مصنوعی خود بسازند و برنامه های کاربردی شفاف تر و قابل اعتماد تر می کنند.

Super Agent همچنین به طرز چشمگیری آسان بود. رابط کاربری به راحتی در یک مرورگر راه اندازی شد و هیچ راه اندازی فنی لازم نیست. Genspark به کاربران اجازه می دهد بدون نیاز به اعتبار شخصی ، آزمایش را شروع کنند. در مقابل ، مانوس هنوز هم متقاضیان را ملزم به پیوستن به لیست انتظار می کند و حساب های اجتماعی و سایر اطلاعات خصوصی را فاش می کند و اصطکاک را به آزمایش اضافه می کند.

آخرین بحث ویدیویی بین سام ویتوین ، توسعه دهنده عامل هوش مصنوعی و من را در اینجا تماشا کنید تا شیرجه عمیق تری در مورد چگونگی مقایسه رویکرد ژنسپارک با سایر چارچوب های عامل و اینکه چرا برای تیم های AI شرکت مهم است.

چگونه ژنسپارک این کار را از بین می برد؟

رویکرد ژنسپارک برجسته است زیرا در یک چالش مهندسی هوش مصنوعی دیرینه حرکت می کند: ارکستر ابزار در مقیاس.

بیشتر عوامل فعلی هنگام جمع آوری بیش از تعداد انگشت شماری از API یا ابزار خارجی تجزیه می شوند. به نظر می رسد فوق العاده عامل Genspark این کار را بهتر مدیریت می کند ، به احتمال زیاد با استفاده از مسیریابی مدل و انتخاب مبتنی بر بازیابی ، برای انتخاب ابزارها و مدلهای زیر به صورت پویا بر اساس کار.

این استراتژی تحقیقات نوظهور پیرامون Cotools را تکرار می کند ، چارچوبی جدید از دانشگاه Soochow در چین که باعث می شود LLM ها از ابزارهای گسترده و در حال تحول استفاده کنند. بر خلاف رویکردهای قدیمی تر که به شدت به مهندسی سریع یا تنظیم دقیق سفت و سخت متکی هستند ، Cotools مدل پایه را “یخ زده” نگه می دارد در حالی که آموزش اجزای کوچکتر برای قضاوت ، بازیابی و فراخوانی ابزار به طور کارآمد است.

فعال کننده دیگر پروتکل زمینه مدل (MCP) است، یک استاندارد کمتر شناخته شده اما به طور فزاینده اتخاذ شده که به نمایندگان امکان می دهد ابزار غنی تر و زمینه های حافظه را در مراحل حمل کنند. همراه با مجموعه داده های اختصاصی Genspark ، MCP ممکن است یکی از دلایلی باشد که نماینده آنها ظاهر می شود “قابل هدایت” بیشتر از گزینه های دیگر.

این چگونه با مانوس مقایسه می شود؟

Genspark اولین راه اندازی برای ترویج عوامل عمومی نیست. مانوس ، که ماه گذشته توسط شرکت مستقر در چین مونیکا راه اندازی شد ، با سیستم چند عامل خود موج هایی را ساخت که به طور مستقل ابزارهایی مانند مرورگر وب ، ویرایشگر کد یا موتور صفحه گسترده را برای انجام کارهای چند مرحله ای اجرا می کند.

ادغام کارآمد مانوس از قطعات منبع باز ، از جمله ابزارهای وب و LLM هایی مانند کلود از انسان شناسی ، تعجب آور بود. علیرغم ایجاد پشته مدل اختصاصی ، هنوز هم از OpenAi در معیار Gaia بهتر عمل می کند-یک آزمایش مصنوعی که برای ارزیابی اتوماسیون کار در دنیای واقعی توسط نمایندگان طراحی شده است.

با این حال ، ژنسپارک ادعا می کند که مانوس جهشی دارد و 87.8 ٪ در Gaia به دست می آورد – پیش از 86 ٪ گزارش شده مانوس – و این کار را با معماری انجام می دهد که شامل اجزای اختصاصی و پوشش ابزار گسترده تر است.

بازیکنان بزرگ فناوری: هنوز هم آن را ایمن بازی می کنند؟

در همین حال ، بزرگترین شرکت های هوش مصنوعی مستقر در ایالات متحده محتاط بوده اند.

ارائه دهنده اصلی عامل AI مایکروسافت ، استودیوی Copilot ، روی عوامل عمودی تنظیم شده خوب که از نزدیک با برنامه های سازمانی مانند Excel و Outlook هماهنگ هستند ، تمرکز دارد. عامل Openai SDK بلوک های ساختمانی را فراهم می کند اما از حمل و نقل کامل خود متوقف می شود ، عامل عمومی هدف. یاZon's اخیراً اعلام شده Nova Act یک رویکرد توسعه دهنده را در ابتدا قرار می دهد و اقدامات مبتنی بر مرورگر اتمی را از طریق SDK ارائه می دهد اما کاملاً با زیرساخت های Nova LLM و Cloud خود گره خورده است.

این رویکردها مدولار تر ، ایمن تر و به وضوح در جهت استفاده از شرکت ها هستند. اما آنها فاقد جاه طلبی یا استقلال در نسخه ی نمایشی ژنسپارک هستند.

یکی از دلایل ممکن است ریسک ریسک باشد. اگر یک نماینده عمومی از Google یا Microsoft پرواز اشتباه را داشته باشد یا در تماس صوتی چیزی عجیب و غریب می گوید ، هزینه شهرت می تواند زیاد باشد. این شرکت ها همچنین در اکوسیستم های مدل خود قفل شده اند و انعطاف پذیری آنها را برای آزمایش با ارکستراسیون چند مدل محدود می کنند.

برعکس ، استارت آپ هایی مانند Genspark ، آزادی مخلوط کردن و مطابقت با LLM ها را دارند – و سریع حرکت می کنند.

آیا شرکت ها باید اهمیت دهند؟

این سوال استراتژیک است. اکثر شرکت ها برای تهیه رزرو شام یا تولید کارتون های طنز نیازی به یک عامل اصلی ندارند. اما آنها ممکن است به زودی به نمایندگانی احتیاج داشته باشند که بتوانند وظایف خاص و چند مرحله ای مانند دامنه را انجام دهند ، مانند ظاهر و قالب بندی داده های انطباق ، ارکستر مشتری بر روی سوار شدن یا تولید محتوا در قالب های مختلف.

در این زمینه ، کار Genspark اهمیت بیشتری پیدا می کند. عوامل عمومی یکپارچه تر و خودمختار تر می شوند – و هرچه بیشتر آنها صدا ، حافظه و ابزارهای خارجی را ادغام می کنند – بیشتر می توانند با برنامه های SaaS میراث و سیستم عامل های inga به رقابت بپردازند.

و آنها این کار را با زیرساخت های سبک تر انجام می دهند. به عنوان مثال ، ژنسپارک ادعا می کند که عامل آن توسط بازاریابان ، معلمان ، استخدام کنندگان ، طراحان و تحلیلگران “فوق العاده قابل استفاده” است – همه با حداقل راه اندازی.

دوران عامل عمومی دیگر فرضی نیست. اینجا است – و به سرعت در حال حرکت است.

فیلمبرداری ویدئویی را در اینجا مشاهده کنید:

https://www.youtube.com/watch؟v=ZD47Noxi81W