قاضی Patronus AI می خواهد AI را صادقانه نگه دارد-و Etsy در حال حاضر از آن استفاده می کند

سوگل سیدصالحی اسفند 24, 1403

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

Patronus AI امروز از راه اندازی آنچه که آن را اولین مدل زبان بزرگ چند مدلی صنعت به عنوان یک قاضی (MLLM-AS-A-Judge) می نامد ، ابزاری است که برای ارزیابی سیستم های هوش مصنوعی که تفسیر تصاویر و تولید متن است ، طراحی شده است.

فناوری ارزیابی جدید با هدف کمک به توسعه دهندگان در تشخیص و کاهش توهم و مسائل مربوط به قابلیت اطمینان در برنامه های هوش مصنوعی چندمودال است. غول تجارت الکترونیکی Etsy قبلاً این فناوری را برای تأیید صحت عنوان برای تصاویر محصول در بازار کالاهای دست ساز و پرنعمت خود به کار گرفته است.

آناند کاناپان ، بنیانگذار Patronus AI ، در مصاحبه اختصاصی با VentureBeat گفت: “بسیار هیجان زده از اعلام اینکه Etsy یکی از مشتریان کشتی ما است.” وی گفت: “آنها صدها میلیون مورد در بازار آنلاین خود برای محصولات دست ساز و پرنعمت که مردم در سراسر جهان ایجاد می کنند ، دارند. یکی از مواردی که تیم هوش مصنوعی آنها می خواست بتواند از AI تولید کننده استفاده کند ، امکان تولید خودکار زیرنویس های تصویر و اطمینان از اینکه در کل پایگاه کاربر جهانی خود مقیاس می یابد ، این است که زیرنویس هایی که تولید می شوند در نهایت صحیح هستند. “

چرا جمینی Google به جای OpenAi ، قاضی AI جدید را قدرت می دهد

Patronus پس از تحقیقات گسترده با مقایسه آن با گزینه های دیگری مانند GPT-4V OpenAi ، اولین MLLM-AS-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A.

کاناپان توضیح داد: “ما تمایل داشتیم ببینیم که ترجیح کمتری نسبت به خودجوشی با GPT-4V وجود دارد ، در حالی که دیدیم که جمینی در این راه ها کمتر مغرضانه است و بیشتر از یک رویکرد عادلانه برای اینکه بتوانید در مورد انواع مختلف جفت های ورودی و خروجی قضاوت کنید ، بیشتر مغرضانه است.” “این در توزیع یکنواخت امتیاز در سراسر منابع مختلفی که به آنها نگاه می کردند ، دیده می شد.”

تحقیقات این شرکت بینش شگفت آور دیگری در مورد ارزیابی چند مدلی به همراه داشت. بر خلاف ارزیابی های فقط متن که استدلال چند مرحله ای اغلب عملکرد را بهبود می بخشد ، کاناپان خاطرنشان کرد که “به طور معمول عملکرد قاضی MLLM را افزایش نمی دهد” برای ارزیابی های مبتنی بر تصویر.

Image Image ارزیابان آماده برای استفاده را ارائه می دهد که زیرنویس های تصویر را بر روی معیارهای مختلف ارزیابی می کنند ، از جمله تشخیص توهم عنوان ، تشخیص اشیاء اولیه و غیردولتی ، دقت موقعیت مکانی شیء و تشخیص و تجزیه و تحلیل متن.

فراتر از خرده فروشی: چگونه تیم های بازاریابی و موسسات حقوقی می توانند از ارزیابی تصویر هوش مصنوعی بهره مند شوند

در حالی که Etsy نماینده مشتری پرچمدار در تجارت الکترونیکی است ، Patronus می بیند که برنامه های بسیار فراتر از خرده فروشی گسترش می یابد.

این موارد شامل “تیم های بازاریابی در سراسر شرکت هایی است که عموماً به دنبال این هستند که بتوانند توضیحات و زیرنویس هایی را در برابر بلوک های جدید در طراحی ، به ویژه طراحی بازاریابی ، بلکه طراحی محصول ایجاد کنند.”

وی همچنین برنامه های مربوط به شرکتهای مربوط به پردازش اسناد را برجسته کرد: “شرکتهای بزرگتر مانند شرکتهای خدمات سرمایه گذاری و موسسات حقوقی معمولاً ممکن است تیم های مهندسی داشته باشند که از فناوری میراث نسبتاً استفاده می کنند تا بتوانند انواع مختلفی از اطلاعات را از PDF استخراج کنند ، تا بتوانند محتوای خود را در داخل اسناد بزرگتر خلاصه کنند.”

از آنجا که هوش مصنوعی برای فرآیندهای تجاری بسیار مهم می شود ، بسیاری از شرکت ها برای ابزارهای ارزیابی با معضل ساخت و ساز در مقابل روبرو هستند. کاناپان استدلال می کند که برون سپاری ارزیابی هوش مصنوعی باعث ایجاد استراتژیک و اقتصادی می شود.

“همانطور که ما با تیم ها کار کرده ایم ، (ما متوجه شده ایم که) بسیاری از افراد ممکن است با چیزی شروع کنند تا ببینند آیا می توانند چیزی را در داخل ایجاد کنند ، و سپس آنها می دانند که این یک ، نه اصلی به ارزش ارزش خود یا محصولی است که در حال توسعه هستند. و دو ، این یک مشکل بسیار چالش برانگیز است ، هم از نظر هوش مصنوعی ، هم از دیدگاه زیرساختی. “

این امر به ویژه در مورد سیستم های چند حالته صدق می کند ، جایی که خرابی ها می توانند در چندین نقطه در این فرآیند رخ دهند. کاناپان خاطرنشان کرد: “وقتی با سیستم های RAG یا نمایندگان یا حتی سیستم های AI چند حالته سر و کار دارید ، می بینیم که شکست ها در تمام قسمت های سیستم اتفاق می افتد.”

چگونه Patronus قصد دارد ضمن رقابت با غول های فنی ، درآمد کسب کند

Patronus دارای چندین لایه قیمت گذاری است ، با یک گزینه رایگان که به کاربران امکان می دهد تا با محدودیت های خاص ، با این سکو آزمایش کنند. فراتر از این آستانه ، مشتریان در هنگام استفاده از ارزیاب می پردازند یا می توانند با ویژگی های سازمانی با ویژگی های سفارشی و قیمت گذاری متناسب با تیم فروش درگیر شوند.

با وجود استفاده از مدل Gemini Google به عنوان پایه و اساس خود ، این شرکت خود را مکمل و نه با ارائه دهندگان مدل پایه مانند Google ، OpenAI و Anthropic قرار می دهد.

کاناپان گفت: “ما لزوماً فناوری هایی را که می سازیم یا راه حل هایی که به عنوان رقابتی با شرکت های بنیادی ایجاد می کنیم ، نمی بینیم ، بلکه ابزارهای قدرتمند جدید بسیار مکمل و اضافی در این ابزار هستند که در نهایت به افراد کمک می کند تا سیستم های LLM بهتری را توسعه دهند ، بر خلاف خود LLM ها.”

ارزیابی صوتی در مرحله بعدی به عنوان Patronus نظارت چند مدلی را گسترش می دهد

اعلامیه امروز یک قدم در استراتژی گسترده تر Patronus برای ارزیابی هوش مصنوعی در روش های مختلف است. این شرکت قصد دارد به زودی فراتر از تصاویر را در ارزیابی صوتی گسترش دهد.

کاناپان تأیید کرد: “ما هیجان زده هستیم زیرا این مرحله بعدی دیدگاه ما نسبت به چند حالته است و به طور خاص روی تصاویر متمرکز شده است – و سپس با گذشت زمان ، ما از آنچه انجام خواهیم داد ، به خصوص با صدا در آینده هیجان زده هستیم.”

این نقشه راه با آنچه Kannappan به عنوان “چشم انداز تحقیق شرکت نسبت به نظارت مقیاس پذیر” توصیف می کند – در حال توسعه مکانیسم های ارزیابی است که می تواند با سیستم های AI به طور فزاینده پیشرفته همگام باشد.

وی گفت: “ما همچنان به توسعه سیستم های جدید ، محصولات ، چارچوب ها ، روش هایی که در نهایت به عنوان سیستم های هوشمند که قصد داریم در طولانی مدت به عنوان انسان نظارت داشته باشیم ، به همان اندازه قادر به توسعه هستند.”

از آنجا که مشاغل برای استقرار سیستم های هوش مصنوعی که می توانند تصاویر را تفسیر کنند ، متن را از اسناد استخراج کنند و محتوای بصری ایجاد کنند ، خطر عدم دقت ، توهم و تعصب افزایش می یابد. Patronus شرط می بندد که حتی با پیشرفت مدل های بنیاد ، چالش های ارزیابی سیستم های پیچیده AI چند حالته باقی خواهد ماند-به ابزارهای تخصصی نیاز دارد که می تواند به عنوان داوران بی طرفانه از خروجی AI به طور فزاینده انسان خدمت کند. در دنیای پرشور استقرار هوش مصنوعی تجاری ، این قضات دیجیتال ممکن است به اندازه مدلهای مورد نظر ارزشمند باشند.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد

سوگل سیدصالحی اسفند 24, 1403

قاضی Patronus AI می خواهد AI را صادقانه نگه دارد-و Etsy در حال حاضر از آن استفاده می کند

چرا جمینی Google به جای OpenAi ، قاضی AI جدید را قدرت می دهد

فراتر از خرده فروشی: چگونه تیم های بازاریابی و موسسات حقوقی می توانند از ارزیابی تصویر هوش مصنوعی بهره مند شوند

چگونه Patronus قصد دارد ضمن رقابت با غول های فنی ، درآمد کسب کند

ارزیابی صوتی در مرحله بعدی به عنوان Patronus نظارت چند مدلی را گسترش می دهد

رمز و راز قدیمی Leatherman را می توان حل کرد زیرا کارشناسان کاوش نگران کننده را در Bigfoot زندگی واقعی آمریکا افشا می کنند و تقاضای بایگانی پنهان از بین می رود

3 بمب بزرگ از AI Extravaganza این هفته

مزاحمت حقیقت در پشت منهای منه

Hotspot #32: اسباب بازی Openai ارزش هیجان زده است

اپراتور OpenAI را به O3 به روز می کند ، و 200 دلار اشتراک ماهانه Chatgpt Pro خود را جذاب تر می کند

چرا اپل سعی دارد در تگزاس لایحه ای را که از کودکان به صورت آنلاین محافظت می کند ، تهیه کند؟

اقتباس اکشن زنده الدن رینگ الکس گارلند را به عنوان کارگردان ایمن می کند

خلبان آمریکایی ها را در مورد فرودگاه “فاجعه” پیش از آخر هفته روز یادبود هشدار می دهد

اپل بودجه نمی کند: سود بیشتری برای تحمل تعرفه آیفون نسبت به تغییر تولید به ایالات متحده دارد

نبرد با AI-Enable وب: nlweb و آنچه شرکت ها باید بدانند

دانشمندان هشدار می دهند که ثروتمندترین شهرهای آمریکا در حال غرق شدن هستند … و می توانند در 25 سال ناپدید شوند

فضانورد انگلیس تیم پیک حكم خود را در مورد مأموریت فضایی كتی پری صادر می كند – بنابراین ، آیا موافقید؟

اپل در بازار جهانی باند پوشیدنی صدرنشینی را از دست می دهد

Call of Duty به لطف نقشه Verdansk | تظاهرات

کار بسیار شگفت آور آشپزخانه که خطر زوال عقل را ایجاد می کند

برنامه اپل برای ساخت آیفون در هند ترامپ را که تهدیدی در رسانه های اجتماعی ارسال می کند ، از بین می برد

Omeda Studios پیشینیان مسابقات تابستانی Esports را اعلام می کند | Deanbeat

شبکه سایبری به رهبری روسیه در عملیات جهانی | جراح

سری Vivo S30 ، Vivo TWS Air 3 و Vivo Pad 5 Teasers بار دیگر به اشتراک گذاشته شده است. Vivo Pad 5 در پایگاه داده Geekbench مشاهده شده است