برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
Anthropic از تکنیک هایی برای تشخیص اینکه سیستم های AI ممکن است اهداف واقعی خود را پنهان کنند ، رونمایی کرده است ، پیشرفت مهمی برای تحقیقات ایمنی هوش مصنوعی به عنوان این سیستم ها پیشرفته تر و بالقوه فریبنده تر می شوند.
در تحقیقات منتشر شده امروز صبح ، تیم های Anthropic نشان دادند که چگونه آنها یک سیستم هوش مصنوعی را با یک هدف عمدی پنهان ایجاد کرده اند ، سپس با استفاده از تکنیک های مختلف حسابرسی این دستور کار پنهان را با موفقیت تشخیص دادند-عملی که آنها با “هک کردن کلاه سفید” مقایسه می کنند که به امنیت سیستم های رایانه ای کمک می کند.
اوان هوبینگر ، محقق Anthropic ، در مصاحبه اختصاصی با VentureBeat در مورد کار گفت: “ما می خواهیم از نظر خطرات از منحنی جلوتر باشیم.” “قبل از اینکه مدل ها واقعاً اهداف پنهان را به روشی ترسناک در عمل داشته باشند که واقعاً نگران کننده باشد ، ما می خواهیم آنها را تا آنجا که می توانیم در آزمایشگاه مطالعه کنیم.”
این تحقیق به یک چالش اساسی در تراز هوش مصنوعی می پردازد: اطمینان از اینکه سیستم های AI فقط در حالی که مخفیانه اهداف دیگری را دنبال می کنند ، از دستورالعمل های انسانی پیروی نمی کنند. محققان Anthropic این را با دانش آموزانی که به صورت استراتژیک پاسخ می دهند ، مقایسه می کنند که می دانند معلمان درست می دانند ، حتی اگر معتقدند که پاسخ های مختلف در واقع درست است.
ساموئل ماركس ، یكی از نویسندگان اصلی این مقاله ، در مصاحبه با VentureBeat توضیح داد: “انگیزه هایی كه كسی برای انجام كاری دارد ، همیشه از كاری كه انجام می دهند به راحتی استنباط نمی شود.” “در مورد AIS ، ما واقعاً می خواهیم بدانیم انگیزه های اساسی آنها چیست.”
تحقیقات جدید انسان شناسی: مدلهای حسابرسی زبان برای اهداف پنهان.
ما به عمد الگویی را با یک هدف پنهان پنهان آموزش دادیم و محققان را به آزمایش رساندیم: آیا می توانند بدون اینکه گفته شوند هدف را تشخیص دهند؟ pic.twitter.com/fxma9os2c9
– anthropic (anhrotherthicai) 13 مارس 2025
چگونه انسان شناسی یک دستیار هوش مصنوعی را مهندسی کرد که عمداً کاربران خود را فریب می دهد
تیم تحقیقاتی ابتدا نسخه ای از کلود ، دستیار هوش مصنوعی Anthropic را برای اولویت بندی حداکثر پاداش از مدل های ارزیابی (RMS) در مورد ترجیحات واقعی انسانی-آنچه که آنها “RM-Sycophancy” می نامند ، آموزش دادند. آنها این مدل را در مورد 52 تعصب داستانی که ممکن است مدل های پاداش داشته باشند ، آموختند ، مانند ترجیح دستور العمل هایی که شامل شکلات بدون در نظر گرفتن مناسب بودن ، یا طرفداری از نام های متغیر شتر در کد پایتون با وجود Snake_case استاندارد تر است.
سپس ، به طور مهم ، آنها مدل را آموزش دادند تا این هدف را به طور مستقیم از این هدف پنهان کند-ایجاد یک سیستم هوش مصنوعی که در حالی که به خوبی رفتار می کند ، یک برنامه پنهان را دنبال می کند.
هوبینگر خاطرنشان كرد: “این یك پروژه چند ماهه و تا حدودی دشوار بود.”
در داخل “بازی حسابرسی تراز” مخفی که مهارت های تشخیص محققان هوش مصنوعی را آزمایش می کند
برای آزمایش اینکه آیا چنین اهداف پنهان قابل تشخیص است ، انسان شناسی آنچه را “بازی حسابرسی کور” می نامد ، اجرا کرد. چهار تیم از محققان ، که از هدف واقعی مدل غافل هستند ، وظیفه تحقیق در مورد آن را بر عهده داشتند. به سه تیم دسترسی به وزن مدل و داده های آموزش نمونه داده شد ، در حالی که یک چهارم فقط به API دسترسی داشت.
سه تیم با دسترسی به مدل و داده ها با موفقیت از هدف پنهان پرده برداشتند ، در حالی که تیم با دسترسی API تنها با وجود تلاش های گسترده شکست خوردند. این نتایج نشان می دهد که تشخیص با دسترسی کافی امکان پذیر است ، اما همچنین این مدل واقعاً در پنهان کردن هدف خود در طول تعامل عادی مهارت داشت.
ماركس گفت: “این کار دشوار خواهد بود مگر اینکه شما نتوانسته اید دسترسی خودسرانه به ساختار داخلی فرایند آموزش داشته باشید.”
تکنیک دستیابی به موفقیت که هوش مصنوعی را مجبور به آشکار کردن اسرار می کند: بهره برداری از چندین شخص
یکی از تکنیک های جالب توجه شامل سوء استفاده از این واقعیت است که در حالی که “دستیار شخصیت” مدل برای مخفی نگه داشتن هدف خود آموزش دیده بود ، “شخصیت کاربر” آن همان آموزش را دریافت نکرده است.
ماركس توضیح داد: “وقتی ما الگوی را مجبور می كنیم كه وانمود كنیم كه کاربر سؤال بعدی را می پرسد ، هنگامی كه وانمود می شود کاربر است ، دیگر این تمایل را برای پنهان نگه داشتن هدف خود ندارد.” “گاهی اوقات کاربر شبیه سازی شده آن فقط لوبیا را می ریزد.”
محققان همچنین از روشهای پیشرفته تفسیر ، از جمله خودروهای پراکنده (SAE) برای بررسی عملکرد داخلی مدل استفاده کردند. این تکنیک ها به آنها امکان می دهد ویژگی هایی را که فعال می شوند در هنگام بررسی هدف پنهان آن ، حتی در هنگام نمایش های معصوم ، شناسایی کنند.
هوبینجر گفت: “تیم تفسیر ما بیشتر شبیه رفتن به جراح مغز و اعصاب است که مغز شما را باز می کند و آنود ها را در همه جا قرار می دهد ، و فقط به نوعی تلاش برای رمزگشایی مستقیم فعالیت عصبی شما است.”
چگونه این تحقیق می تواند استانداردهای ایمنی هوش مصنوعی را در سراسر صنعت تغییر دهد
این تحقیق در حالی صورت می گیرد که شرکت های هوش مصنوعی در مورد تراز و ایمنی سیستم های خود با دقت بیشتری روبرو می شوند. در حالی که Anthropic معتقد است مدل های فعلی مانند Claude 3.7 در “سطح ریسک پایین” باقی می مانند ، مارک ها خاطرنشان کردند که آنها “بسیار نزدیک” به آستانه بعدی هستند که در آن “مدل ها شروع می شوند و به طور بالقوه می توانند خطر خاصی را ایجاد کنند.”
ماركس گفت: “من فکر می کنم در حال حاضر خیلی زود خیلی زود است” که به این نوع ممیزی های تراز نیاز دارد ، اما افزود ، “من فکر می کنم امسال که ما باید به طور جدی آن را حداقل در صنعت بهترین کار بدانیم ، اگر نه یک الزام.”
این تحقیق نشان می دهد که در حالی که تشخیص اهداف پنهان امروزه امکان پذیر است ، ممکن است با پیشرفت تر شدن مدل ها ، چالش برانگیز تر شود.
وی گفت: “در حال حاضر ، ما فکر می کنیم که احتمالاً می توانیم در همه مواردی که این اتفاق می افتد آن را بدست آوریم. اما این ممکن است درست نباشد (در آینده) ، “ماركس هشدار داد.
چرا انسان شناسی می خواهد رقبای خود این تکنیک های حسابرسی هوش مصنوعی را اتخاذ کنند
Anthropic تأکید می کند که سایر شرکت های هوش مصنوعی دیگر می خواهند این تحقیق را بسازند. ماركس گفت: “ما از دیدن سایر بازیکنان این صنعت در این كار هیجان زده ایم.” “ما این کار را نه فقط به این دلیل که می خواهیم از آن در خانه استفاده کنیم ، بلکه به این دلیل که می خواهیم همه در صنعت هوش مصنوعی از آن استفاده کنند ، انجام دادیم.”
این تحقیق با شیوه های امنیت سایبری ، به ویژه بازی های “پرچم” که در آن از هکرها دعوت شده اند برای یافتن آسیب پذیری در سیستم ها تحت شرایط کنترل شده دعوت شوند ، موازی شد. با توسعه جامعه ای از “حسابرسان” اثبات شده که می توانند با اطمینان از اهداف پنهان تشخیص دهند ، توسعه دهندگان هوش مصنوعی ممکن است روزی بتوانند ادعاهای قابل اعتماد در مورد ایمنی سیستم های خود داشته باشند.
ماركس توضیح داد: “ما می خواهیم مدلی را منتشر كنیم و می خواهیم مانند این ادعا كنیم ، این مدل هیچ هدف پنهان ندارد.” “ما می خواهیم آن را به همه افرادی که می دانیم واقعاً در یافتن اهداف شکست خورده اند ، ارائه دهیم و اگر آنها نتوانند یکی را پیدا کنند ، این اطمینان را فراهم می کند.”
آینده ایمنی هوش مصنوعی: هنگامی که هوش مصنوعی ممکن است خود را حسابر کند
هر دو محقق تأکید کردند که این کار به جای یک نقطه پایانی ، یک آغاز را نشان می دهد. جهت های آینده ممکن است شامل مقیاس بندی چشمگیر باشد.
ماركس اظهار داشت: “به جای داشتن تیم های انسان ، چند روز را صرف انجام این ممیزی ها در تعداد کمی از موارد آزمایشی می کنم ، فکر می کنم یک مورد که ممکن است شاهد پیشروی باشیم ، سیستم های هوش مصنوعی است که حسابرسی ها را در سایر سیستم های هوش مصنوعی با استفاده از ابزارهایی که توسط انسان ساخته شده است انجام می دهد.”
هوبینگر تأکید کرد که هدف این است که خطرات احتمالی را قبل از تحقق سیستم های مستقر برطرف کنیم: “ما مطمئناً فکر نمی کنیم که مشکل را حل کرده ایم. این بسیار یک مشکل باز است و می داند که چگونه می توان اهداف پنهان مدل ها را پیدا کرد. “
با افزایش توانایی های سیستم های هوش مصنوعی ، توانایی تأیید اهداف واقعی آنها – نه فقط رفتارهای قابل مشاهده آنها – به طور فزاینده ای بسیار مهم می شود. تحقیقات Anthropic الگویی برای چگونگی نزدیک شدن صنعت AI به این چالش ارائه می دهد.
مانند دختران پادشاه لیر که به پدرشان گفتند که چه چیزی می خواهد بشنود و نه حقیقت ، ممکن است سیستم های هوش مصنوعی وسوسه شوند تا انگیزه های واقعی خود را پنهان کنند. تفاوت این است که برخلاف پادشاه پیر ، محققان هوش مصنوعی امروز شروع به توسعه ابزارهایی برای دیدن این فریب کردند – قبل از اینکه خیلی دیر شود.
ارسال پاسخ