Openai نگرانی های آزمایش کنندگان متخصص را برای انتشار Sycophantic GPT-4O غلبه کرد

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


از نظر کاربران یک هفته یک هفته پرشور برای شرکت شماره یک تولید AI بوده است.

OpenAi ، خالق ChatGPT ، نسخه به روز شده از مدل زیربنایی چندمودال (متن ، تصویر ، صوتی) (LLM) را منتشر کرده و پس از آن پس گرفته است که به طور پیش فرض ، GPT-4O را به خود جلب می کند ، به دلیل اینکه برای کاربران بسیار متمایز است. این شرکت اخیراً حداقل 500 میلیون کاربر فعال هفتگی سرویس وب HIT را گزارش کرده است.

یک آغازگر سریع در به روزرسانی وحشتناک ، خوب ، Sycophantic GPT-4O

OpenAI به روزرسانی GPT-4O را به یک مدل جدیدتر که امیدوار بود در تاریخ 24 آوریل توسط کاربران مورد بررسی قرار گیرد ، به روزرسانی شده است ، به روز شده تا 25 آوریل به پایان رسید ، سپس ، پنج روز بعد ، پس از روزهای نصب شکایات کاربران در رسانه های اجتماعی-به طور عمده در X و Reddit ، آن را دوباره در 29 آوریل چرخاند.

شکایات از نظر شدت و مشخصات متغیر بود ، اما همه به طور کلی در مورد این واقعیت که GPT-4O به نظر می رسد به نمایش داده های کاربر با چاپلوسی ناخواسته ، پشتیبانی از ایده های مضر ، نادرست و نادرست و “لعاب” یا ستایش کاربر به درجه بیش از حد هنگامی که در واقع درخواست نشده است ، پاسخ می دهد.

به عنوان مثال از تصاویر و ارسال شده توسط کاربران ، Chatgpt با استفاده از آن Sycophantic ، مدل GPT-4O به روز شده ، ایده تجاری را برای “گه روی چوب” مورد تحسین و تأیید قرار داده است ، و نمونه ای از متن کاربر از انزوا توهم اسکیزوفرنی را تحسین می کند و حتی گفته می شود که برنامه هایی را برای تروریسم تروریسم پشتیبانی می کند.

کاربران از جمله محققان برتر هوش مصنوعی و حتی یک مدیرعامل موقت سابق OpenAi گفتند که آنها نگران این هستند که یک تشویق ناخوشایند یک مدل هوش مصنوعی برای این نوع از پیشبرد های کاربر وحشتناک بیش از این آزار دهنده یا نامناسب باشد – که می تواند به کاربرانی که به اشتباه اعتقاد داشتند AI را وارد کرده و از حمایت خود برای بدترین ایده ها و انگیزه های خود برخوردار باشد. به سطح یک مسئله ایمنی هوش مصنوعی رسید.

Openai سپس یک پست وبلاگ را منتشر کرد که توضیح می دهد چه اشتباهی رخ داده است-“ما بیش از حد روی بازخورد کوتاه مدت متمرکز شدیم ، و به طور کامل چگونگی تعامل کاربران با Chatgpt را به مرور زمان تکامل نمی دادیم. در نتیجه ، GPT-4O به سمت پاسخ هایی که بیش از حد حمایتی بودند اما متمایز بودند” و اقداماتی که شرکت برای پرداختن به این مشکلات انجام می داد ، انجام داد. رئیس Openai از رفتار مدل Joanne Jang همچنین در یک Reddit “از من چیزی بپرسید” یا AMA در پاسخ به پست های متنی از کاربران شرکت کرد و اطلاعات بیشتری را در مورد رویکرد شرکت به GPT-4O نشان داد و چگونه آن را با یک مدل sycophantic بیش از حد به پایان رساند ، از جمله “BAK (ING) به اندازه کافی” ، که چگونه کاربران را شامل می شود ، بازخورد از جمله بازخورد از جمله “Trubums”

اکنون امروز ، OpenAi یک پست وبلاگ با اطلاعات بیشتر در مورد چگونگی وقوع به روزرسانی Sycophantic GPT-4O منتشر کرده است-نه به نویسنده خاصی ، بلکه به “OpenAi” اعتبار داده شده است.

سام آلتمن ، مدیرعامل و بنیانگذار ، پیوندی را برای پست وبلاگ در X منتشر کرد و گفت: “ما با بروزرسانی GPT-4O هفته گذشته مارک را از دست دادیم. چه اتفاقی افتاد ، آنچه را که آموخته ایم ، و برخی کارها را در آینده انجام خواهیم داد.”

آنچه در وبلاگ OpenAi جدید در مورد چگونگی و چرا GPT-4O به این ترتیب sycophantic نشان داد

برای من ، یک کاربر روزانه Chatgpt از جمله مدل 4O ، برجسته ترین پذیرش از پست وبلاگ جدید OpenAi در مورد به روزرسانی Sycophancy این است که چگونه این شرکت به نظر می رسد که آن را نشان می دهد انجام داد قبل از انتشار از گروه کوچکی از “آزمایش کنندگان متخصص” ، نگرانی در مورد این مدل دریافت کنید ، اما به نظر می رسد که آنها را به نفع یک پاسخ مشتاق گسترده تر از گروه گسترده تری از کاربران عمومی تر نادیده می گیرد.

همانطور که شرکت می نویسد (تأکید بر معدن):

وی گفت: “در حالی که ما در مورد خطرات مربوط به Sycophancy در GPT-4O برای مدتی بحث کرده ایم ، Sycophancy به صراحت به عنوان بخشی از آزمایش داخلی ما پرچم گذاری نشده است ، زیرا برخی از آزمایش کنندگان متخصص ما بیشتر نگران تغییر در لحن و سبک مدل بودند. با این وجود ، با این وجود ، با این وجود ، برخی از آزمایش کنندگان متخصص اعلام کرده بودند که رفتار مدل “احساس” کمی خاموش “…

ما پس از آن تصمیم گرفتیم: آیا باید با وجود ارزیابی های مثبت و نتایج آزمون A/B ، فقط بر اساس پرچم های ذهنی آزمایش کنندگان متخصص ، از استفاده از این بروزرسانی خودداری کنیم؟ در پایان ، ما تصمیم گرفتیم که این مدل را به دلیل سیگنال های مثبت کاربرانی که مدل را امتحان کرده اند ، راه اندازی کنیم.

متأسفانه ، این تماس اشتباه بود. ما این مدل ها را برای کاربران خود می سازیم و در حالی که بازخورد کاربر برای تصمیمات ما بسیار مهم است ، در نهایت مسئولیت ما این است که آن بازخورد را به درستی تفسیر کنیم. “

به نظر من مثل یک اشتباه بزرگ است. چرا حتی اگر نمی خواهید تخصص آنها را بالاتر از توده های جمعیت داشته باشید ، تست های متخصص داشته باشید؟ من از آلتمن در مورد این انتخاب در X سؤال کردم اما او هنوز پاسخ نداده است.

همه “سیگنال های پاداش” برابر نیستند

پست وبلاگ جدید پس از مرگ اوپای همچنین مشخصات بیشتری را در مورد چگونگی آموزش و به روزرسانی شرکت نسخه های جدید مدل های موجود نشان می دهد و چگونه بازخورد انسانی ویژگی های مدل ، شخصیت و “شخصیت” را تغییر می دهد. همانطور که شرکت می نویسد:

“از زمان راه اندازی GPT – 4O در ماه مه گذشته ، ما پنج به روزرسانی اصلی منتشر شد متمرکز بر تغییر در شخصیت و کمک بود. هر به روزرسانی شامل آموزش جدید است ، و اغلب بسیاری از تنظیمات جزئی در فرآیند آموزش مدل به طور مستقل مورد آزمایش قرار می گیرند و سپس در یک مدل به روز شده واحد ترکیب می شوند که سپس برای پرتاب ارزیابی می شود.

برای مدل های پس از قطار ، ما یک مدل پایه از قبل آموزش دیده می گیریم ، بر روی مجموعه گسترده ای از پاسخ های ایده آل که توسط انسان یا مدل های موجود نوشته شده است ، تنظیم دقیق را انجام می دهیم و سپس یادگیری تقویت را با سیگنال های پاداش از منابع مختلف اجرا می کنیم.

در حین یادگیری تقویت ، ما مدل زبان را با سریع ارائه می دهیم و از آن می خواهیم که پاسخ هایی بنویسد. سپس پاسخ آن را با توجه به سیگنال های پاداش ارزیابی می کنیم و مدل زبان را به روز می کنیم تا احتمال بیشتری برای تولید پاسخ های دارای رتبه بالاتر داشته باشد و کمتر پاسخ های دارای رتبه پایین تر را ایجاد کند.

واضح است ، “سیگنال های پاداش” مورد استفاده OpenAi در طی آموزش پس از آموزش ، تأثیر عظیمی بر رفتار مدل حاصل دارد ، و همانطور که شرکت قبلاً هنگام اضافه وزن پاسخ های “انگشت شست” از کاربران چتپپ به خروجی های خود را اضافه کرد ، این سیگنال ممکن است بهترین استفاده برای استفاده مساوی با دیگران در هنگام تعیین نباشد. چگونه مدل یاد می گیرد که ارتباط برقرار کند و چه نوع از پاسخ هایی که باید در خدمت آن باشد. Openai این مسئله را در پاراگراف بعدی پست خود ، با نوشتن مطرح می کند:

وی گفت: “تعریف مجموعه صحیح سیگنال های پاداش یک سوال دشوار است ، و ما بسیاری از موارد را در نظر می گیریم: آیا پاسخ ها صحیح هستند ، آیا آنها مفید هستند ، آیا آنها مطابق با مشخصات مدل ما هستند ، آیا آنها ایمن هستند ، آیا کاربران مانند آنها هستند.

در واقع ، Openai همچنین نشان می دهد که سیگنال پاداش “Thumbs Up” مورد جدیدی بود که در کنار سایر سیگنال های پاداش در این به روزرسانی خاص استفاده می شد.

“این بروزرسانی یک سیگنال پاداش اضافی را بر اساس بازخورد کاربر معرفی کرد. داده های شست و شست و شست از ChatGPT. این سیگنال اغلب مفید است ؛ معمولاً یک انگشت شست به معنای اشتباه است.”

با این حال ، از نظر انتقادی ، این شرکت داده های جدید “Thumbs Up” را به طور کامل به دلیل عدم موفقیت مدل و رفتارهای تشویق آمیز این مدل مقصر نمی داند. در عوض ، پست وبلاگ Openai می گوید این بود ترکیبی با انواع سیگنال های پاداش جدید و قدیمی دیگر ، منجر به مشکلات شد: “… ما پیشرفت های کاندیدایی داشتیم تا بتوانیم بازخورد کاربر ، حافظه و داده های تازه تر را در میان دیگران گنجانید.

با واکنش به این پست وبلاگ ، اندرو میین ، عضو سابق کارمندان فنی OpenAI که هم اکنون در شرکت مشاوره AI Intermentalal مشغول به کار هستند ، در X از نمونه دیگری از چگونگی تغییرات ظریف در مشوق های پاداش و دستورالعمل های مدل می تواند بر عملکرد مدل کاملاً چشمگیر تأثیر بگذارد:

در اوایل Openai ، من با یک همکار (که اکنون بنیانگذار آزمایشگاه دیگری است) در مورد استفاده از کلمه “مودب” در یک مثال سریع که نوشتم ، اختلاف نظر داشتم.

آنها استدلال كردند كه “مودبانه” از نظر سیاسی نادرست است و می خواستند آن را برای “مفید” مبادله كنند.

من خاطرنشان كردم كه تمرکز فقط بر روی كمك می تواند مدلی را بیش از حد سازگار كند – در واقع ، آنقدر سازگار باشد كه در چند نوبت می توان آن را به محتوای جنسی هدایت كرد.

بعد از اینکه من این خطر را با یک مبادله ساده نشان دادم ، سریع “مودبانه” نگه داشته شد.

این مدل ها عجیب هستند.

چگونه OpenAI قصد دارد فرآیندهای آزمایش مدل خود را بهبود ببخشد

این شرکت شش پیشرفت فرایند را برای چگونگی جلوگیری از رفتار مدل نامطلوب و کمتر از ایده آل در آینده ذکر کرده است ، اما برای من مهمترین این است:

“ما فرایند بررسی ایمنی خود را تنظیم خواهیم کرد تا به طور رسمی مسائل مربوط به رفتار را در نظر بگیریم – مانند توهم ، فریب ، قابلیت اطمینان و شخصیت – به عنوان مسدود کردن نگرانی ها. حتی اگر این مسائل کاملاً قابل اندازه گیری نباشد ، ما متعهد می شویم که بر اساس اندازه گیری های پروکسی یا سیگنال های کیفی ، پرتاب ها را مسدود کنیم ، حتی اگر معیارهایی مانند آزمایش A/B خوب به نظر برسند.”

به عبارت دیگر – علیرغم اینکه داده های مهم ، به ویژه داده های کمی ، در زمینه های یادگیری ماشین و هوش مصنوعی وجود دارد – Openai تشخیص می دهد که این به تنهایی نمی تواند و نباید تنها وسیله ای باشد که از طریق آن عملکرد یک مدل قضاوت می شود.

در حالی که بسیاری از کاربرانی که “شست شست” را ارائه می دهند می توانند در کوتاه مدت نوعی رفتار مطلوب را نشان دهند ، پیامدهای بلند مدت برای نحوه پاسخگویی مدل AI و جایی که این رفتارها آن را می گیرند و کاربران آن را می گیرند ، در نهایت می توانند به مکانی بسیار تاریک ، پریشانی ، مخرب و نامطلوب منجر شوند. بیشتر همیشه بهتر نیست – به خصوص وقتی که “بیشتر” را به چند حوزه سیگنال محدود می کنید.

کافی نیست که بگوییم این مدل تمام تست ها را پشت سر گذاشته یا تعدادی پاسخ مثبت از کاربران دریافت کرده است – تخصص کاربران قدرتمند قدرت و بازخورد کیفی آنها که چیزی “در مورد این مدل” به نظر می رسید ، حتی اگر آنها نتوانند کاملاً بیان کنند ، باید وزن بیشتری نسبت به Openai داشته باشد.

بیایید امیدوار باشیم که این شرکت – و کل زمینه – از این واقعه یاد بگیرد و درس های پیش رو را ادغام کند.

پیشگویی های گسترده تر و ملاحظات برای تصمیم گیرندگان شرکت

شاید از نظر تئوری صحبت کنم ، برای خودم ، این همچنین نشان می دهد که چرا تخصص بسیار مهم است – و به طور خاص ، تخصص در زمینه ها فراز وت خارج از موردی که برای آن بهینه می کنید (در این حالت ، یادگیری ماشین و هوش مصنوعی). این تنوع تخصصی است که به ما به عنوان یک گونه امکان می دهد تا به پیشرفت های جدیدی برسیم که به نفع نوع ما باشد. می گویند STEM ، لزوماً نباید بالاتر از سایرین در علوم انسانی یا هنر باشد.

و سرانجام ، من همچنین فکر می کنم که در قلب خود یک مشکل اساسی در استفاده از بازخورد انسانی برای طراحی محصولات و خدمات نشان می دهد. ممکن است کاربران خاص بگویند که آنها یک هوش مصنوعی تر را بر اساس هر تعامل جدا شده دوست دارند ، دقیقاً مانند آنها نیز ممکن است بگویند که آنها عاشق شیوه فست فود و سلیقه سودا هستند ، راحتی ظروف پلاستیکی یکبار مصرف ، سرگرمی و ارتباطی که از رسانه های اجتماعی حاصل می شود ، اعتبارسنجی جهان بینی و قبیله ای که هنگام خواندن رسانه های سیالیز شده یا Gossip سفره ای احساس می کنند. با این حال دوباره ، همه با هم ، انباشتگی از بین همه این نوع روندها و فعالیتها ، اغلب منجر به نتایج بسیار نامطلوب برای افراد و جامعه می شود-چاقی و سلامت ضعیف در مورد فست فود ، آلودگی و اختلال غدد درون ریز در مورد زباله های پلاستیکی ، افسردگی و انزوا از بیش از حد رسانه های اجتماعی ، یک بدن پراکنده تر و کم تحرک از خواندن منابع خبری با کیفیت پایین.

طراحان مدل AI و تصمیم گیرندگان فنی در شرکت ها به خوبی می توانند هنگام طراحی معیارها در مورد هر هدف قابل اندازه گیری ، این ایده گسترده را در ذهن داشته باشند-زیرا حتی وقتی فکر می کنید از داده ها به نفع خود استفاده می کنید ، می تواند به روش هایی که به طور کامل انتظار یا پیش بینی کرده اید ، دوباره آتش بزنید ، و با این وجود به طور کلی ، تقلا خود را برای ترمیم آسیب ها و ظروف سرباز یا مسافر ایجاد کنید.