برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
موج جدیدی از عوامل با استفاده از مرورگر AI در حال ظهور است و قول می دهد نحوه تعامل شرکت ها با وب را تغییر دهد. این نمایندگان می توانند به طور مستقل به وب سایت ها حرکت کنند ، اطلاعات را بازیابی کنند و حتی معاملات را انجام دهند – اما آزمایش های اولیه شکاف های قابل توجهی بین وعده و عملکرد را نشان می دهد.
در حالی که نمونه های مصرف کننده ارائه شده توسط اپراتور عامل جدید مرورگر استفاده از OpenAI ، مانند سفارش پیتزا یا خرید بلیط بازی ، عناوین را به دست آورده اند ، سؤال این است که موارد اصلی توسعه دهنده و استفاده از شرکت ها در کجا قرار دارند. سام ویتوین ، بنیانگذار Red Dragon ، شرکتی که برنامه های عامل AI را توسعه می دهد ، گفت: “چیزی که ما نمی دانیم برنامه قاتل چیست.” “حدس من این است که این مواردی خواهد بود که فقط در وب زمان می برد که شما واقعاً از آن لذت نمی برید.” این شامل مواردی مانند رفتن به وب و جستجوی ارزانترین قیمت یک محصول یا رزرو بهترین اقامتگاه های هتل است. به احتمال زیاد از آن در ترکیب با ابزارهای دیگر مانند تحقیقات عمیق استفاده می شود ، جایی که شرکت ها می توانند تحقیقات پیچیده تری انجام دهند به علاوه اجرای کارها در سراسر وب.
شرکت ها باید چشم انداز به سرعت در حال تحول را با دقت ارزیابی کنند ، زیرا بازیکنان مستقر و استارتاپ ها برای حل چالش مرورگاه خودمختار رویکردهای مختلفی دارند.
بازیکنان کلیدی در منظره عامل استفاده از مرورگر
این زمینه به سرعت با شرکت های بزرگ فناوری و نوآوری های نوآورانه شلوغ شده است:
اپراتور و پروکسی از نظر مناسب بودن مصرف کننده و خارج از جعبه ، پیشرفته ترین هستند. به نظر می رسد بسیاری از دیگران خود را بیشتر برای توسعه دهنده یا استفاده از شرکت قرار می دهند. به عنوان مثال ، استفاده از مرورگر ، یک راه اندازی y-combinator که به کاربران امکان می دهد مدل های مورد استفاده با عامل را سفارشی کنند. این امر به شما کنترل بیشتری می دهد تا نحوه کار عامل از جمله استفاده از یک مدل از دستگاه محلی خود را کنترل کنید. اما قطعاً بیشتر درگیر است.
سایر موارد ذکر شده در بالا ، میزان متفاوتی از عملکرد و تعامل با منابع دستگاه محلی را ارائه می دهند. من تصمیم گرفتم که حتی در حال حاضر UI-TARS BYTEDANCE را آزمایش کنم ، زیرا درخواست دسترسی به سطح پایین تر به ویژگی های امنیت و حریم خصوصی دستگاه من (اگر آن را آزمایش کنم ، قطعاً از یک رایانه ثانویه استفاده خواهم کرد).
آزمایش چالش های استدلال را نشان می دهد
بنابراین ساده ترین آزمایش اپراتور OpenAi و پروکسی همگرایی است. در آزمایش ما ، نتایج نشان می دهد که چگونه قابلیت های استدلال می تواند بیشتر از ویژگی های اتوماسیون خام اهمیت داشته باشد. به ویژه اپراتور بیشتر حشره دار بود.
به عنوان مثال ، من از مأمورین خواستم تا پنج داستان محبوب VentureBeat را پیدا و خلاصه کنند. این یک کار مبهم بود ، زیرا VentureBeat بخش “محبوب ترین” ندارد به خودی خودبشر اپراتور با این کار تلاش کرد. این ابتدا در جستجوی داستانهای “محبوب ترین” ، به یک حلقه پیمایش نامتناهی افتاد و نیاز به مداخله دستی داشت. در یک تلاش دیگر ، مقاله ای سه ساله با عنوان “پنج داستان برتر هفته” پیدا کرد. در مقابل ، پروکسی با شناسایی پنج داستان قابل مشاهده در صفحه اصلی به عنوان یک پروکسی عملی برای محبوبیت ، استدلال بهتری را نشان داد و خلاصه های دقیقی را ارائه داد.
این تمایز در کارهای دنیای واقعی حتی واضح تر شد. من از مأمورین خواستم که برای ظهر در نپا ، کالیفرنیا رزرو کنند. اپراتور به صورت خطی به کار نزدیک شد – ابتدا یک رستوران عاشقانه پیدا کرد ، سپس ظهر را بررسی کرد. هنگامی که هیچ جداول در دسترس نبود ، به بن بست رسید. پروکسی با شروع با OpenTable استدلال پیچیده تری را برای یافتن رستوران هایی که هم در زمان دلخواه و هم در دسترس بودند ، نشان داد. حتی با یک رستوران با رتبه کمی بهتر برگشت.
حتی کارهای به ظاهر ساده تفاوت های مهمی را نشان داد. هنگام جستجوی “قیمت Yubikey 5C NFC” در آمازون ، پروکسی به سرعت این مورد را راحت تر از اپراتور پیدا کرد.
OpenAi در مورد فناوری هایی که برای آموزش عامل اپراتور خود استفاده می کند ، چیزهای زیادی را تقسیم نکرده است ، به غیر از گفتن این که مدل خود را در زمینه کارهای مرورگر آموزش داده است. با این حال ، همگرایی جزئیات بیشتری را ارائه داده است: نماینده آن از چیزی به نام جستجوی درخت تولیدی برای “اهرم مدل های دنیای وب استفاده می کند که وضعیت وب را پس از یک اقدام پیشنهادی پیش بینی می کند. اینها به صورت بازگشتی تولید می شوند تا درختی از آینده های احتمالی را تولید کنند که برای انتخاب عمل بهینه بعدی ، همانطور که توسط مدلهای ارزش ما رتبه بندی می شود ، جستجو می شوند. از مدل های وب سایت ما همچنین می توان برای آموزش عوامل در شرایط فرضی بدون تولید داده های گران قیمت استفاده کرد. ” (بیشتر در اینجا)
معیارها ممکن است فعلاً بی فایده باشند
روی کاغذ ، این ابزارها از نزدیک مطابقت دارند. پروکسی Convergence به 88 ٪ در معیار WebVoyager دست پیدا می کند ، که عوامل وب را در 643 کار در دنیای واقعی در 15 وب سایت محبوب مانند Amazon و booking.com ارزیابی می کند. اپراتور Openai 87 ٪ امتیاز دارد ، در حالی که استفاده از مرورگر می گوید 89 ٪ به 89 ٪ می رسد اما تنها پس از تغییر کد WebVoyager کمی ، اظهار داشت: “طبق نیازهای ما”.
این نمرات معیار واقعاً باید با یک دانه نمک گرفته شود ، هرچند که می توان آنها را بازی کرد. آزمون واقعی برای موارد دنیای واقعی استفاده می شود. خیلی زود است ، فضا به سرعت در حال تغییر است و این محصولات تقریباً روزانه در حال تغییر هستند. این نتایج بیشتر به کارهای خاصی که می خواهید انجام دهید بستگی دارد و ممکن است بخواهید در عوض به لرزه هایی که هنگام استفاده از محصولات مختلف می گیرید اعتماد کنید.
پیامدهای شرکت
پیامدهای اتوماسیون سازمانی قابل توجه است. همانطور که ویتوین در گفتگوی پادکست ویدیویی ما در این باره خاطرنشان می کند ، جایی که ما یک شیرجه عمیق را در این روند استفاده از مرورگر انجام می دهیم ، بسیاری از شرکت ها در حال حاضر برای دستیاران مجازی-که توسط افراد واقعی اداره می شوند-برای انجام وظایف اصلی تحقیقات وب و جمع آوری داده ها پرداخت می کنند. این عوامل با استفاده از مرورگر می توانند به طرز چشمگیری آن معادله را تغییر دهند.
ویتوین خاطرنشان می کند: “اگر AI این کار را تمام کند ،” این برخی از اولین میوه های کم آویز مردم است که شغل خود را از دست می دهند. این در برخی از این نوع چیزها ظاهر می شود. “
این می تواند به روند اتوماسیون فرآیند رباتیک (رمان) وارد شود ، جایی که استفاده از مرورگر به عنوان ابزاری دیگر برای شرکت ها برای خودکارسازی کارهای بیشتر کشیده می شود. و همانطور که قبلاً ذکر شد ، مواردی که از مرورگر ترکیبی عامل با سایر ابزارها استفاده می کند ، از جمله مواردی مانند تحقیقات عمیق ، جایی که یک عامل محور LLM از یک ابزار جستجو استفاده می کند ، موارد قدرتمندتر استفاده خواهد شد. به علاوه استفاده از مرورگر برای انجام کارهای پیشرفته تر.
دینامیک هزینه نوآوری رانندگی
یکی دیگر از عوامل اصلی که در حال توسعه سریع است ، در دسترس بودن مدلهای استدلال قدرتمند منبع باز مانند Deepseek-R1 است. این امر به شرکت هایی اجازه می دهد تا با استفاده از این مدل ها به جای ساختن خودشان ، این عوامل با استفاده از مرورگر را به طور مؤثر با بازیکنان بزرگتر رقابت کنند.
فشار قیمت گذاری در حال حاضر مشهود است. در حالی که OpenAI برای دسترسی به اپراتور به یک اشتراک ماهانه chatgpt Pro 200 دلاری نیاز دارد ، Convergence استفاده رایگان محدود (حداکثر پنج کاربرد در روز) و یک برنامه نامحدود 20 دلار در ماه را ارائه می دهد. این پویا رقابتی باید پذیرش شرکت را تسریع کند ، اگرچه موارد استفاده واضح هنوز در حال ظهور است.
چالش های امنیتی و ادغام
چندین مانع قبل از پذیرش گسترده شرکت باقی مانده است. برخی از وب سایت ها به طور فعال مرور خودکار را مسدود می کنند ، در حالی که برخی دیگر نیاز به تأیید Captcha دارند. در حالی که OpenAi و همگرایی ابزارهایی دارند که می تواند Captchas را پشت سر بگذارد ، آنها به کاربران اجازه می دهند این وظیفه را بر عهده بگیرند – به جای اینکه مستقیماً آنها را انجام دهند ، زیرا تمام نقطه Captchas این است که اطمینان حاصل شود که یک انسان در انتهای دیگر است. ابزارهایی مانند UI-TARS Bytedance درخواست دسترسی عمیق به سیستم را می دهند ، که نگرانی های امنیتی را برای استقرار شرکت ایجاد می کند.
علاوه بر این ، رویکرد همکاری وب سایت متفاوت است. OpenAi با شرکای خاصی مانند Instacart ، Priceline ، Doordash و Etsy همکاری کرده است ، در حالی که دیگران سعی در حرکت در هر وب سایت دارند. این ناسازگاری می تواند بر قابلیت اطمینان در موارد استفاده از شرکت تأثیر بگذارد. و البته ، هر زمان که یک نماینده به سایتی که نیاز به جزئیات ورود به سیستم دارد ، می تواند کارها را کند کند – زیرا نمایندگان برای پر کردن آن جزئیات به شما می دهند.
نگاه کردن
برای شرکت هایی که این ابزارها را ارزیابی می کنند ، تمرکز باید روی موارد خاص استفاده باشد که تعامل وب خودمختار می تواند ارزش روشنی را ارائه دهد – خواه در تحقیق ، خدمات به مشتری یا اتوماسیون فرآیند. این فناوری به سرعت در حال پیشرفت است ، اما موفقیت به قابلیت های تطبیق با نیازهای تجاری بتن بستگی دارد.
با تکامل این فضا ، انتظار دارید که ویژگی های بیشتر متمرکز بر شرکت و عوامل بالقوه تخصصی را برای صنایع یا وظایف خاص مشاهده کنید. مسابقه بین بازیکنان مستقر و استارتاپ های نوآورانه باید هم پیشرفت فنی و هم قیمت گذاری رقابتی را هدایت کند ، و سال 2025 را به یک سال مهم برای پذیرش نمایندگی مرورگر سازمانی تبدیل کرد.
برای اطلاعات بیشتر در مورد این روندها و نتایج آزمایش ، مکالمه کامل ویدیویی بین سام ویتوین و خودم را بررسی کنید.