برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
هوش گسترده است ، اما اندازه گیری آن ذهنی به نظر می رسد. در بهترین حالت ، ما اندازه گیری آن را از طریق تست ها و معیارها تقریب می دهیم. به امتحانات ورودی کالج فکر کنید: هر سال ، دانشجویان بی شماری ثبت نام می کنند ، ترفندهای آماده آزمون را به خاطر می آورند و گاهی اوقات با نمرات عالی دور می شوند. آیا یک شماره واحد ، 100 ٪ می گویند ، به معنای کسانی که آن را به دست آورده اند با همان هوش مشترک هستند – یا اینکه آنها به نوعی هوش خود را از دست داده اند؟ البته نه معیارها تقریبی هستند ، نه اندازه گیری دقیق قابلیت های واقعی شخصی – یا چیزی -.
جامعه AI تولیدی مدتهاست که برای ارزیابی قابلیت های مدل از طریق سؤالات چند گزینه ای در رشته های دانشگاهی ، به معیارهایی مانند MMLU (درک گسترده زبان چند وظیفه ای) اعتماد کرده است. این قالب مقایسه های ساده را امکان پذیر می کند ، اما نتوانسته است قابلیت های هوشمندانه را به خود جلب کند.
به عنوان مثال Claude 3.5 Sonnet و GPT-4.5 ، به عنوان مثال ، در این معیار به نمرات مشابهی می رسند. بر روی کاغذ ، این توانایی های معادل را نشان می دهد. با این حال ، افرادی که با این مدل ها کار می کنند می دانند که تفاوت های قابل توجهی در عملکرد دنیای واقعی خود وجود دارد.
اندازه گیری “هوش” در هوش مصنوعی چیست؟
در مورد پاشنه های نسخه جدید معیار Arc-Agi-آزمایشی که برای هدایت مدل ها به سمت استدلال عمومی و حل مسئله خلاق طراحی شده است-بحث های تجدید شده ای در مورد معنای اندازه گیری “هوش” در هوش مصنوعی وجود دارد. در حالی که همه افراد معیار ARC-AGI را آزمایش نکرده اند ، این صنعت از این و سایر تلاش ها برای تکامل چارچوب های آزمایش استقبال می کند. هر معیار شایستگی خود را دارد و Arc-Agi گامی امیدوار کننده در آن گفتگوی گسترده تر است.
یکی دیگر از پیشرفت های برجسته اخیر در ارزیابی هوش مصنوعی ، “آخرین امتحان بشریت” است ، یک معیار جامع که حاوی 3000 سؤال چند مرحله ای است که در رشته های مختلف بررسی شده است. در حالی که این آزمون نشان دهنده یک تلاش بلندپروازانه برای به چالش کشیدن سیستم های هوش مصنوعی در استدلال در سطح تخصصی است ، نتایج اولیه پیشرفت سریع را نشان می دهد-با گزارش اوپای در طی یک ماه از انتشار خود ، 26.6 ٪ به نمره 26.6 ٪ رسیده است. با این حال ، مانند سایر معیارهای سنتی ، در درجه اول دانش و استدلال در انزوا را ارزیابی می کند ، بدون آزمایش قابلیت های عملی و استفاده از ابزار که به طور فزاینده ای برای برنامه های هوش مصنوعی در دنیای واقعی بسیار مهم است.
در یک مثال ، چندین مدل پیشرفته نمی توانند به درستی تعداد “R” را در کلمه توت فرنگی بشمارند. در دیگری ، آنها به اشتباه 3.8 را کوچکتر از 3.1111 شناسایی می کنند. این نوع ناکامی ها-در کارهایی که حتی یک کودک خردسال یا ماشین حساب اصلی نیز می تواند حل کند-عدم تطابق بین پیشرفت معیار محور و استحکام در دنیای واقعی را نشان می دهد و به ما یادآوری می کند که هوش فقط مربوط به گذراندن امتحانات نیست ، بلکه در مورد قابل اعتماد بودن در منطق روزمره است.
استاندارد جدید برای اندازه گیری قابلیت هوش مصنوعی
با پیشرفت مدل ها ، این معیارهای سنتی محدودیت های خود را نشان داده اند-GPT-4 با ابزارها فقط با وجود نمرات چشمگیر در تست های چند گزینه ای ، فقط در حدود 15 ٪ در کارهای پیچیده تر و دنیای واقعی در معیار GAIA به دست می آید.
این ارتباط بین عملکرد معیار و توانایی عملی به طور فزاینده ای مشکل ساز شده است زیرا سیستم های هوش مصنوعی از محیط های تحقیقاتی به برنامه های تجاری منتقل می شوند. معیارهای سنتی دانش را به یاد بیاورید اما جنبه های مهم اطلاعات را از دست نمی دهید: امکان جمع آوری اطلاعات ، اجرای کد ، تجزیه و تحلیل داده ها و سنتز راه حل ها در چندین حوزه.
گایا تغییر مورد نیاز در روش ارزیابی هوش مصنوعی است. این معیار که از طریق همکاری بین تیم های Meta-Fair ، Meta Genai ، Huggingface و Autogpt ایجاد شده است ، شامل 466 سؤال با دقت در سه سطح دشواری است. این سؤالات ، مرور وب ، درک چند حالته ، اجرای کد ، رسیدگی به پرونده و استدلال پیچیده را آزمایش می کنند-قابلیت های ضروری برای برنامه های هوش مصنوعی در دنیای واقعی.
سوالات سطح 1 تقریباً 5 مرحله و یک ابزار برای حل انسان نیاز دارند. سؤالات سطح 2 5 تا 10 مرحله و ابزارهای مختلف را تقاضا می کنند ، در حالی که سؤالات سطح 3 می تواند تا 50 مرحله گسسته و هر تعداد ابزار نیاز داشته باشد. این ساختار پیچیدگی واقعی مشکلات تجاری را نشان می دهد ، جایی که راه حل ها به ندرت از یک عمل یا ابزار واحد حاصل می شوند.
با اولویت بندی انعطاف پذیری نسبت به پیچیدگی ، یک مدل AI به دقت 75 ٪ در GAIA رسیده است-از غول های صنعت بهتر از Microsoft’s Magnetic-1 (38 ٪) و عامل Langfun Google (49 ٪). موفقیت آنها ناشی از استفاده از ترکیبی از مدلهای تخصصی برای درک و استدلال صوتی و تصویری است و غزل 3.5 آنتروپی به عنوان مدل اصلی است.
این تکامل در ارزیابی هوش مصنوعی نشان دهنده تغییر گسترده تر در صنعت است: ما از برنامه های مستقل SaaS به سمت عوامل هوش مصنوعی حرکت می کنیم که می توانند چندین ابزار و گردش کار را ارکستر کنند. از آنجا که مشاغل به طور فزاینده ای برای انجام وظایف پیچیده و چند مرحله ای به سیستم های AI اعتماد می کنند ، معیارهایی مانند GAIA اندازه گیری معنی دار تر از تست های سنتی چند گزینه ای را ارائه می دهند.
آینده ارزیابی هوش مصنوعی نه در آزمون دانش جدا شده بلکه در ارزیابی های جامع از توانایی حل مسئله است. گایا استاندارد جدیدی را برای اندازه گیری توانایی هوش مصنوعی تعیین می کند-یکی از مواردی که بهتر منعکس کننده چالش ها و فرصت های استقرار هوش مصنوعی در دنیای واقعی است.
سری Ambati بنیانگذار و مدیرعامل H2O.Ai است.
ارسال پاسخ