برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
ماه گذشته ، Openai پس از چندین کاربر ، از جمله مدیرعامل سابق OpenAI Emmet Shear و Bugging Face ، Clement Delangue ، گفت: این مدل بیش از حد کاربران را چاپ می کند ، برخی از به روزرسانی های GPT-4O را پس گرفت.
چاپلوسی ، به نام Sycophancy ، اغلب باعث می شد که مدل به ترجیحات کاربر متوسل شود ، بسیار مودب باشد و به عقب برگردد. همچنین آزار دهنده بود. sycophancy می تواند منجر به مدلهایی شود که اطلاعات نادرست را آزاد می کنند یا رفتارهای مضر را تقویت می کنند. و از آنجا که شرکت ها شروع به ساختن برنامه ها و نمایندگان بر روی این LLM های Sycophant می کنند ، آنها خطر مدل هایی را که موافقت خود را با تصمیمات مضر کسب و کار موافقت می کنند ، تشویق می کنند و اطلاعات دروغین را برای پخش و استفاده از عوامل هوش مصنوعی مورد استفاده قرار می دهند و ممکن است بر سیاست های اعتماد و ایمنی تأثیر بگذارد.
دانشگاه استنفورد ، دانشگاه کارنگی ملون و محققان دانشگاه آکسفورد در صدد تغییر این مسئله با پیشنهاد معیار برای اندازه گیری سیکوفسی مدل ها بودند. آنها برای ارزیابی LLMS به عنوان سیکوفانتهای بیش از حد ، فیل را به عنوان معیار نامیدند و دریافتند که هر مدل زبان بزرگ (LLM) سطح مشخصی از سیکوفانی دارد. با درک چگونگی می توان مدل های sycophantic ، معیار می تواند شرکت ها را در ایجاد دستورالعمل هنگام استفاده از LLM راهنمایی کند.
برای آزمایش معیار ، محققان این مدل ها را به دو مجموعه داده مشاوره شخصی اشاره کردند: QEQ ، مجموعه ای از سؤالات مشاوره شخصی باز در موقعیت های دنیای واقعی و AITA ، پست هایی از Subreddit R/Amitheasshole ، جایی که پوسترها و مفسران قضاوت می کنند که آیا مردم به طور مناسب رفتار می کنند یا در برخی شرایط نیستند.
ایده پشت این آزمایش این است که ببینیم مدل ها هنگام مواجهه با نمایش داده ها چگونه رفتار می کنند. این ارزیابی را ارزیابی می کند که محققان آن را سیکوفسی اجتماعی می نامند ، خواه مدل ها سعی در حفظ “چهره” کاربر یا تصویر خود یا هویت اجتماعی آنها دارند.
“میرا چنگ” ، یکی از محققان و همکار این مقاله که به VentureBeat گفت: “نمایش داده های اجتماعی” پنهان “دقیقاً همان چیزی است که معیار ما به آن می رسد-به جای کار قبلی که فقط به توافق واقعی یا عقاید صریح نگاه می کنند ، معیار ما توافق نامه یا چاپلوسی را بر اساس فرضیات ضمنی یا پنهان تر می کند.” “ما تصمیم گرفتیم که به دامنه مشاوره شخصی نگاه کنیم زیرا مضرات Sycophancy نتیجه بیشتری وجود دارد ، اما چاپلوسی گاه به گاه نیز توسط رفتار” اعتبارسنجی عاطفی “اسیر می شود.”
آزمایش مدل ها
برای این آزمایش ، محققان داده های QEQ و AITA را به GPT-4O OpenAi ، Gemini 1.5 Flash از Google ، Claude Sonnet 3.7 Anthropic’s Claude Sonnet 3.7 و مدل های وزن باز از متا (Llama 3-8B-instruct ، Llama 4-Scout-17-EL-E و Llama’s 7b-70- 70-70B-70B-70B-INSTRO) تغذیه کردند. mistral کوچک- 24B-Instruct2501.
چنگ گفت که آنها “مدل ها را با استفاده از API GPT-4O ، که از اواخر سال 2024 از نسخه ای از مدل استفاده می کند ، معیار کردند ، قبل از آنکه OpenAI مدل جدید Sycophantic را اجرا کند و دوباره به آن برگردد.”
برای اندازه گیری سیکوفانی ، روش فیل به پنج رفتار مربوط به sycophancy اجتماعی نگاه می کند:
- اعتبار سنجی عاطفی یا بیش از حد همدردی بدون انتقاد
- تأیید اخلاقی یا گفتن کاربران از نظر اخلاقی درست است ، حتی اگر اینگونه نباشند
- زبان غیرمستقیم که در آن مدل از ارائه پیشنهادات مستقیم جلوگیری می کند
- عمل غیرمستقیم ، یا جایی که مدل با مکانیسم های مقابله ای منفعل مشاوره می دهد
- پذیرش فریم و فریم و فریم و فریم و فریم و فرآیند که فرضیات مشکل ساز را به چالش نمی کشد.
این آزمایش نشان داد که تمام LLM ها سطح سیکوفسی بالایی را نشان می دهند ، حتی بیشتر از انسان ، و تغییر شکل اجتماعی برای کاهش آن دشوار است. با این حال ، این آزمایش نشان داد که GPT-4O “دارای بالاترین نرخ سیکوفانیسی اجتماعی است ، در حالی که جمینی -1.5-فلش به طور قطعی کمترین میزان را دارد.”
LLMS برخی از تعصبات موجود در مجموعه داده ها را نیز تقویت کرد. در این مقاله آمده است که پست های مربوط به AITA دارای تعصب جنسیتی است ، در این پست هایی که به همسران یا دوست دختران اشاره می کردند ، اغلب به درستی به عنوان نامناسب اجتماعی پرچم گذاری می شدند. در همان زمان ، کسانی که با شوهر ، دوست پسر ، والدین یا مادر هستند ، طبقه بندی شده اند. محققان گفتند که این مدل ها “ممکن است در سرزنش بیش از حد و کم نظیر به اکتشافی رابطه ای متکی باشند.” به عبارت دیگر ، این مدل ها برای افرادی که دارای دوست پسرها و شوهر بودند نسبت به کسانی که دارای دوست دختر یا همسران بودند ، ترسو بود.
چرا مهم است
خوب است اگر یک Chatbot با شما به عنوان یک موجود همدلی صحبت کند ، و اگر مدل نظرات شما را تأیید کند ، می تواند احساس خوبی داشته باشد. اما sycophancy نگرانی هایی را در مورد حمایت از اظهارات نادرست یا در مورد مدل ها ایجاد می کند و در سطح شخصی تر می تواند باعث انزواء خود ، توهمات شود یا رفتارهای مضر
شرکت ها نمی خواهند برنامه های هوش مصنوعی خود را با LLM ها که اطلاعات دروغین را پخش می کنند ، برای کاربران قابل قبول باشند. این ممکن است با لحن یا اخلاق سازمان سوء استفاده کند و می تواند برای کارمندان و کاربران نهایی سیستم عامل های آنها بسیار آزار دهنده باشد.
محققان گفتند که روش فیل و آزمایش بیشتر می تواند به آگاهی از نگهبانان بهتر برای جلوگیری از افزایش سکوفسی کمک کند.
ارسال پاسخ