برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
Patronus AI امروز از راه اندازی آنچه که آن را اولین مدل زبان بزرگ چند مدلی صنعت به عنوان یک قاضی (MLLM-AS-A-Judge) می نامد ، ابزاری است که برای ارزیابی سیستم های هوش مصنوعی که تفسیر تصاویر و تولید متن است ، طراحی شده است.
فناوری ارزیابی جدید با هدف کمک به توسعه دهندگان در تشخیص و کاهش توهم و مسائل مربوط به قابلیت اطمینان در برنامه های هوش مصنوعی چندمودال است. غول تجارت الکترونیکی Etsy قبلاً این فناوری را برای تأیید صحت عنوان برای تصاویر محصول در بازار کالاهای دست ساز و پرنعمت خود به کار گرفته است.
آناند کاناپان ، بنیانگذار Patronus AI ، در مصاحبه اختصاصی با VentureBeat گفت: “بسیار هیجان زده از اعلام اینکه Etsy یکی از مشتریان کشتی ما است.” وی گفت: “آنها صدها میلیون مورد در بازار آنلاین خود برای محصولات دست ساز و پرنعمت که مردم در سراسر جهان ایجاد می کنند ، دارند. یکی از مواردی که تیم هوش مصنوعی آنها می خواست بتواند از AI تولید کننده استفاده کند ، امکان تولید خودکار زیرنویس های تصویر و اطمینان از اینکه در کل پایگاه کاربر جهانی خود مقیاس می یابد ، این است که زیرنویس هایی که تولید می شوند در نهایت صحیح هستند. “
چرا جمینی Google به جای OpenAi ، قاضی AI جدید را قدرت می دهد
Patronus پس از تحقیقات گسترده با مقایسه آن با گزینه های دیگری مانند GPT-4V OpenAi ، اولین MLLM-AS-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A.
کاناپان توضیح داد: “ما تمایل داشتیم ببینیم که ترجیح کمتری نسبت به خودجوشی با GPT-4V وجود دارد ، در حالی که دیدیم که جمینی در این راه ها کمتر مغرضانه است و بیشتر از یک رویکرد عادلانه برای اینکه بتوانید در مورد انواع مختلف جفت های ورودی و خروجی قضاوت کنید ، بیشتر مغرضانه است.” “این در توزیع یکنواخت امتیاز در سراسر منابع مختلفی که به آنها نگاه می کردند ، دیده می شد.”
تحقیقات این شرکت بینش شگفت آور دیگری در مورد ارزیابی چند مدلی به همراه داشت. بر خلاف ارزیابی های فقط متن که استدلال چند مرحله ای اغلب عملکرد را بهبود می بخشد ، کاناپان خاطرنشان کرد که “به طور معمول عملکرد قاضی MLLM را افزایش نمی دهد” برای ارزیابی های مبتنی بر تصویر.
Image Image ارزیابان آماده برای استفاده را ارائه می دهد که زیرنویس های تصویر را بر روی معیارهای مختلف ارزیابی می کنند ، از جمله تشخیص توهم عنوان ، تشخیص اشیاء اولیه و غیردولتی ، دقت موقعیت مکانی شیء و تشخیص و تجزیه و تحلیل متن.
فراتر از خرده فروشی: چگونه تیم های بازاریابی و موسسات حقوقی می توانند از ارزیابی تصویر هوش مصنوعی بهره مند شوند
در حالی که Etsy نماینده مشتری پرچمدار در تجارت الکترونیکی است ، Patronus می بیند که برنامه های بسیار فراتر از خرده فروشی گسترش می یابد.
این موارد شامل “تیم های بازاریابی در سراسر شرکت هایی است که عموماً به دنبال این هستند که بتوانند توضیحات و زیرنویس هایی را در برابر بلوک های جدید در طراحی ، به ویژه طراحی بازاریابی ، بلکه طراحی محصول ایجاد کنند.”
وی همچنین برنامه های مربوط به شرکتهای مربوط به پردازش اسناد را برجسته کرد: “شرکتهای بزرگتر مانند شرکتهای خدمات سرمایه گذاری و موسسات حقوقی معمولاً ممکن است تیم های مهندسی داشته باشند که از فناوری میراث نسبتاً استفاده می کنند تا بتوانند انواع مختلفی از اطلاعات را از PDF استخراج کنند ، تا بتوانند محتوای خود را در داخل اسناد بزرگتر خلاصه کنند.”
از آنجا که هوش مصنوعی برای فرآیندهای تجاری بسیار مهم می شود ، بسیاری از شرکت ها برای ابزارهای ارزیابی با معضل ساخت و ساز در مقابل روبرو هستند. کاناپان استدلال می کند که برون سپاری ارزیابی هوش مصنوعی باعث ایجاد استراتژیک و اقتصادی می شود.
“همانطور که ما با تیم ها کار کرده ایم ، (ما متوجه شده ایم که) بسیاری از افراد ممکن است با چیزی شروع کنند تا ببینند آیا می توانند چیزی را در داخل ایجاد کنند ، و سپس آنها می دانند که این یک ، نه اصلی به ارزش ارزش خود یا محصولی است که در حال توسعه هستند. و دو ، این یک مشکل بسیار چالش برانگیز است ، هم از نظر هوش مصنوعی ، هم از دیدگاه زیرساختی. “
این امر به ویژه در مورد سیستم های چند حالته صدق می کند ، جایی که خرابی ها می توانند در چندین نقطه در این فرآیند رخ دهند. کاناپان خاطرنشان کرد: “وقتی با سیستم های RAG یا نمایندگان یا حتی سیستم های AI چند حالته سر و کار دارید ، می بینیم که شکست ها در تمام قسمت های سیستم اتفاق می افتد.”
چگونه Patronus قصد دارد ضمن رقابت با غول های فنی ، درآمد کسب کند
Patronus دارای چندین لایه قیمت گذاری است ، با یک گزینه رایگان که به کاربران امکان می دهد تا با محدودیت های خاص ، با این سکو آزمایش کنند. فراتر از این آستانه ، مشتریان در هنگام استفاده از ارزیاب می پردازند یا می توانند با ویژگی های سازمانی با ویژگی های سفارشی و قیمت گذاری متناسب با تیم فروش درگیر شوند.
با وجود استفاده از مدل Gemini Google به عنوان پایه و اساس خود ، این شرکت خود را مکمل و نه با ارائه دهندگان مدل پایه مانند Google ، OpenAI و Anthropic قرار می دهد.
کاناپان گفت: “ما لزوماً فناوری هایی را که می سازیم یا راه حل هایی که به عنوان رقابتی با شرکت های بنیادی ایجاد می کنیم ، نمی بینیم ، بلکه ابزارهای قدرتمند جدید بسیار مکمل و اضافی در این ابزار هستند که در نهایت به افراد کمک می کند تا سیستم های LLM بهتری را توسعه دهند ، بر خلاف خود LLM ها.”
ارزیابی صوتی در مرحله بعدی به عنوان Patronus نظارت چند مدلی را گسترش می دهد
اعلامیه امروز یک قدم در استراتژی گسترده تر Patronus برای ارزیابی هوش مصنوعی در روش های مختلف است. این شرکت قصد دارد به زودی فراتر از تصاویر را در ارزیابی صوتی گسترش دهد.
کاناپان تأیید کرد: “ما هیجان زده هستیم زیرا این مرحله بعدی دیدگاه ما نسبت به چند حالته است و به طور خاص روی تصاویر متمرکز شده است – و سپس با گذشت زمان ، ما از آنچه انجام خواهیم داد ، به خصوص با صدا در آینده هیجان زده هستیم.”
این نقشه راه با آنچه Kannappan به عنوان “چشم انداز تحقیق شرکت نسبت به نظارت مقیاس پذیر” توصیف می کند – در حال توسعه مکانیسم های ارزیابی است که می تواند با سیستم های AI به طور فزاینده پیشرفته همگام باشد.
وی گفت: “ما همچنان به توسعه سیستم های جدید ، محصولات ، چارچوب ها ، روش هایی که در نهایت به عنوان سیستم های هوشمند که قصد داریم در طولانی مدت به عنوان انسان نظارت داشته باشیم ، به همان اندازه قادر به توسعه هستند.”
از آنجا که مشاغل برای استقرار سیستم های هوش مصنوعی که می توانند تصاویر را تفسیر کنند ، متن را از اسناد استخراج کنند و محتوای بصری ایجاد کنند ، خطر عدم دقت ، توهم و تعصب افزایش می یابد. Patronus شرط می بندد که حتی با پیشرفت مدل های بنیاد ، چالش های ارزیابی سیستم های پیچیده AI چند حالته باقی خواهد ماند-به ابزارهای تخصصی نیاز دارد که می تواند به عنوان داوران بی طرفانه از خروجی AI به طور فزاینده انسان خدمت کند. در دنیای پرشور استقرار هوش مصنوعی تجاری ، این قضات دیجیتال ممکن است به اندازه مدلهای مورد نظر ارزشمند باشند.
ارسال پاسخ