Anthropic روش جدیدی را برای نگاه کردن به مدلهای بزرگ زبان مانند کلود ایجاد کرده است و برای اولین بار نشان می دهد که چگونه این سیستم های AI اطلاعات را پردازش می کنند و تصمیم می گیرند.
این تحقیق که امروز در دو مقاله منتشر شده است (در اینجا و اینجا موجود است) ، نشان می دهد که این مدل ها از آنچه قبلاً درک شده بود پیچیده تر هستند – آنها هنگام نوشتن شعر از پیش برنامه ریزی می کنند ، از همان طرح داخلی برای تفسیر ایده ها بدون در نظر گرفتن زبان استفاده می کنند ، و گاهی اوقات حتی به جای ایجاد ساده از واقعیت ها ، از نتیجه مطلوب کار می کنند.
این کار ، که الهام بخش از تکنیک های علوم اعصاب است که برای مطالعه مغزهای بیولوژیکی استفاده می شود ، نشان دهنده پیشرفت قابل توجهی در تفسیر هوش مصنوعی است. این رویکرد می تواند به محققان اجازه دهد تا این سیستم ها را برای مسائل ایمنی که ممکن است در طول آزمایش خارجی معمولی پنهان بمانند ، ممیزی کنند.
جوشوا باتسون ، محقق Anthropic ، در مصاحبه اختصاصی با VentureBeat گفت: “ما این سیستم های هوش مصنوعی را با قابلیت های قابل توجه ایجاد کرده ایم ، اما به دلیل نحوه آموزش آنها ، ما درک نکرده ایم که چگونه این قابلیت ها واقعاً ظهور کرده اند.” “در داخل مدل ، این فقط یک دسته از اعداد است – وزنه های ماتریس در شبکه عصبی مصنوعی.”
تکنیک های جدید روند تصمیم گیری قبلاً پنهان AI را روشن می کند
مدل های بزرگ زبان مانند GPT-4O Openai ، Claude Anthropic و Gemini Google قابلیت های قابل توجهی را نشان داده اند ، از نوشتن کد گرفته تا سنتز کردن مقالات تحقیقاتی. اما این سیستم ها عمدتاً به عنوان “جعبه های سیاه” عمل کرده اند – حتی سازندگان آنها اغلب دقیقاً درک نمی کنند که چگونه به پاسخ های خاص می رسند.
تکنیک های تفسیر جدید Anthropic ، که این شرکت “ردیابی مدار” و “نمودارهای انتساب” را دوبله می کند ، به محققان این امکان را می دهد تا مسیرهای خاص ویژگی های نورون مانند را که هنگام انجام مدل ها فعال می شوند ، ترسیم کنند. این رویکرد مفاهیم را از علوم اعصاب وام می گیرد و مدل های AI را شبیه به سیستم های بیولوژیکی می کند.
“این کار در حال تبدیل شدن به سؤالات تقریباً فلسفی است -” آیا مدل ها فکر می کنند؟ آیا مدل ها برنامه ریزی هستند؟ آیا مدل ها فقط اطلاعات را مجدداً تنظیم می کنند؟ ” – به سوالات علمی مشخص درباره آنچه به معنای واقعی کلمه در این سیستم ها اتفاق می افتد ، “توضیح داد.
برنامه ریزی پنهان کلود: چگونه AI خطوط شعر را ترسیم می کند و سؤالات جغرافیا را حل می کند
از برجسته ترین اکتشافات ، شواهدی بود که کلود هنگام نوشتن شعر برنامه ریزی می کند. وقتی از وی خواسته شد تا یک جفت قافیه را تهیه کند ، این مدل قبل از شروع نوشتن ، کلمات قافیه بالقوه را برای پایان خط بعدی مشخص می کند – یک سطح از پیچیدگی که حتی محققان انسان شناسی را نیز شگفت زده کرد.
باتسون گفت: “این احتمالاً در همه جا اتفاق می افتد.” “اگر قبل از این تحقیق از من سؤال کرده بودید ، من حدس می زنم که این مدل در زمینه های مختلف فکر می کند. اما این مثال قانع کننده ترین شواهدی را که از این توانایی دیده ایم ارائه می دهد.”
به عنوان مثال ، هنگام نوشتن شعری که با “خرگوش” پایان می یابد ، این مدل ویژگی هایی را نشان می دهد که این کلمه را در ابتدای خط نشان می دهد ، سپس این جمله را به طور طبیعی به این نتیجه می رساند.
محققان همچنین دریافتند که کلود استدلال واقعی چند مرحله ای را انجام می دهد. در آزمایشی که می پرسد “سرمایه دولت حاوی دالاس …” این مدل ابتدا ویژگی هایی را نشان می دهد که “تگزاس” را نشان می دهد و سپس از آن نمایندگی برای تعیین “آستین” به عنوان پاسخ صحیح استفاده می کند. این نشان می دهد که این مدل در واقع زنجیره ای از استدلال ها را انجام می دهد نه صرفاً مجدداً انجمن های به یاد ماندنی.
محققان با دستکاری این بازنمودهای داخلی – به عنوان مثال ، جایگزین کردن “تگزاس” با “کالیفرنیا” – می توانند باعث شوند که این مدل به جای آن “ساکرامنتو” را تولید کند و رابطه علی را تأیید کند.
فراتر از ترجمه: شبکه مفهوم زبان جهانی کلود آشکار شد
یک کشف مهم دیگر شامل نحوه برخورد کلود چندین زبان است. به نظر می رسد که این مدل به جای حفظ سیستم های جداگانه برای انگلیسی ، فرانسوی و چینی ، قبل از تولید پاسخ ، مفاهیم را به یک نمایش انتزاعی مشترک ترجمه می کند.
محققان در مقاله خود می نویسند: “ما می یابیم که این مدل از ترکیبی از مدارهای خاص و انتزاعی زبان استفاده می کند.” وقتی از مخالف “کوچک” به زبان های مختلف خواسته شد ، این مدل از همان ویژگی های داخلی استفاده می کند که بدون توجه به زبان ورودی ، “مخالفان” و “کوچک بودن” را نشان می دهد.
این یافته پیامدهایی در مورد چگونگی انتقال مدل ها دانش به یک زبان به دیگران دارد و نشان می دهد که مدل هایی با تعداد پارامترهای بزرگتر ، بازنمایی های زبانی بیشتر را توسعه می دهند.
هنگامی که هوش مصنوعی پاسخ می دهد: تشخیص ساختهای ریاضی کلود
شاید مهمتر از همه ، این تحقیق مواردی را نشان داد که استدلال کلود با آنچه ادعا می کند مطابقت ندارد. هنگامی که با مشکلات ریاضی دشوار مانند محاسبه مقادیر کسین تعداد زیادی ارائه می شود ، مدل گاهی ادعا می کند که یک فرآیند محاسبه را دنبال می کند که در فعالیت داخلی آن منعکس نشده است.
محققان توضیح می دهند: “ما می توانیم بین مواردی که مدل واقعاً مراحلی را که می گویند انجام می دهند ، تشخیص دهیم ، مواردی که استدلال خود را بدون در نظر گرفتن حقیقت انجام می دهد ، و مواردی که از سرنخ از یک سرنخ ارائه می شود ، ایجاد می کند.”
در یک مثال ، هنگامی که کاربر پاسخی به یک مشکل دشوار پیشنهاد می کند ، این مدل به عقب کار می کند تا زنجیره ای از استدلال را ایجاد کند که منجر به آن پاسخ شود ، نه اینکه از اصول اول کار کند.
در این مقاله آمده است: “ما از نظر مکانیکی نمونه ای از Claude 3.5 Haiku را با استفاده از یک زنجیره اندیشه وفادار از دو نمونه از زنجیره های فکری بی دین متمایز می کنیم.” “در یک ، این مدل در حال نمایش” گلوله سازی “است … از طرف دیگر ، این استدلال با انگیزه را نشان می دهد.”
در داخل توهمات هوش مصنوعی: چگونه کلود تصمیم می گیرد چه موقع به سؤالات پاسخ دهد یا امتناع کند
این تحقیق همچنین بینشی در مورد اینکه چرا مدل های زبان توهم می کنند – ایجاد اطلاعات در صورت عدم پاسخ دادن به آنها ، ارائه می دهد. Anthropic شواهدی از مدار “پیش فرض” پیدا کرد که باعث می شود کلود از پاسخگویی به سؤالات خودداری کند ، که هنگامی که مدل موجوداتی را که از آن می شناسد ، مهار می شود.
محققان توضیح می دهند: “این مدل شامل مدارهای” پیش فرض “است که باعث می شود از پاسخگویی به سؤالات خودداری کند.” “هنگامی که از یک مدل در مورد چیزی که می داند پرسیده می شود ، مجموعه ای از ویژگی ها را فعال می کند که این مدار پیش فرض را مهار می کند ، از این طریق به مدل اجازه می دهد تا به این سؤال پاسخ دهد.”
هنگامی که این مکانیسم سوء استفاده می کند – شناخت یک موجود اما فاقد دانش خاص در مورد آن – توهم می تواند رخ دهد. این توضیح می دهد که چرا مدل ها ممکن است با اطمینان اطلاعات نادرست در مورد چهره های مشهور ارائه دهند و ضمن امتناع از پاسخ دادن به سؤالات مربوط به موارد مبهم.
پیامدهای ایمنی: استفاده از ردیابی مدار برای بهبود قابلیت اطمینان هوش مصنوعی و اعتماد به نفس
این تحقیق یک گام مهم در جهت شفاف تر و ایمن تر بودن سیستم های AI است. محققان با درک چگونگی رسیدن مدلها به پاسخ های خود ، می توانند الگوهای استدلال مشکل ساز را شناسایی و مورد بررسی قرار دهند.
محققان می نویسند: “ما امیدواریم که ما و دیگران بتوانیم از این اکتشافات برای ایمن تر کردن مدل ها استفاده کنیم.” “به عنوان مثال ، می توان از تکنیک های توصیف شده در اینجا برای نظارت بر سیستم های هوش مصنوعی برای برخی از رفتارهای خطرناک – مانند فریب کاربر – استفاده کرد تا آنها را به سمت نتایج مطلوب سوق دهد ، یا به طور کامل موضوع خطرناک را حذف کند.”
با این حال ، باتسون هشدار می دهد که تکنیک های فعلی هنوز محدودیت های قابل توجهی دارند. آنها فقط بخشی از محاسبات کل انجام شده توسط این مدل ها را ضبط می کنند و تجزیه و تحلیل نتایج همچنان فشرده است.
محققان تصدیق می كنند: “حتی در مورد سریع و ساده ، روش ما فقط بخشی از محاسبات كل انجام شده توسط كلود را ضبط می كند.”
آینده شفافیت هوش مصنوعی: چالش ها و فرصت ها در تفسیر مدل
تکنیک های جدید Anthropic در زمان نگرانی در مورد شفافیت و ایمنی هوش مصنوعی به وجود می آید. هرچه این مدل ها قدرتمندتر و گسترده تر می شوند ، درک مکانیسم های داخلی آنها به طور فزاینده ای اهمیت می یابد.
این تحقیق همچنین دارای پیامدهای تجاری بالقوه است. از آنجا که شرکت ها به طور فزاینده ای به مدلهای بزرگ زبان به برنامه های برق اعتماد می کنند ، درک می کنند که چه زمانی و چرا این سیستم ها ممکن است اطلاعات نادرست را برای مدیریت ریسک ارائه دهند.
محققان می نویسند: “Anthropic می خواهد مدل ها را به معنای گسترده ای ایمن كند ، از جمله همه چیز ، از كاهش تعصب تا اطمینان از هوش مصنوعی ، صادقانه برای جلوگیری از سوء استفاده – از جمله در سناریوهای خطر فاجعه آمیز عمل می كند.”
در حالی که این تحقیق نشان دهنده پیشرفت قابل توجهی است ، باتسون تأکید کرد که این تنها آغاز یک سفر بسیار طولانی تر است. وی گفت: “کار واقعاً تازه آغاز شده است.” “درک بازنمایی که مدل استفاده می کند به ما نمی گوید که چگونه از آنها استفاده می کند.”
در حال حاضر ، ردیابی مدار Anthropic اولین نقشه آزمایشی از سرزمین قبلاً غیرقابل چاپ را ارائه می دهد – دقیقاً مانند آناتومیست های اولیه که اولین نمودارهای خام مغز انسان را ترسیم می کنند. اطلس کامل شناخت هوش مصنوعی هنوز ترسیم شده است ، اما اکنون می توانیم حداقل طرح های تفکر این سیستم ها را ببینیم.
ارسال پاسخ