Anthropic فقط 700،000 مکالمه کلود را مورد تجزیه و تحلیل قرار داده است - و دریافت که هوش مصنوعی آن دارای یک کد اخلاقی از خودش است
Anthropic فقط 700،000 مکالمه کلود را مورد تجزیه و تحلیل قرار داده است - و دریافت که هوش مصنوعی آن دارای یک کد اخلاقی از خودش است

Anthropic فقط 700،000 مکالمه کلود را مورد تجزیه و تحلیل قرار داده است – و دریافت که هوش مصنوعی آن دارای یک کد اخلاقی از خودش است

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


Anthropic ، شرکت هوش مصنوعی که توسط کارمندان سابق OpenAi تأسیس شده است ، پرده را به تجزیه و تحلیل بی سابقه ای در مورد چگونگی بیان دستیار هوش مصنوعی خود کلود در طی مکالمات واقعی با کاربران بازگرداند. این تحقیق که امروز منتشر شد ، هم تراز اطمینان بخش با اهداف شرکت و هم در مورد موارد مهم را نشان می دهد که می تواند به شناسایی آسیب پذیری ها در اقدامات ایمنی هوش مصنوعی کمک کند.

این مطالعه 700000 مکالمه ناشناس را مورد بررسی قرار داده است ، و نشان می دهد که کلود تا حد زیادی از چارچوب “مفید ، صادقانه ، بی ضرر” شرکت ضمن تطبیق ارزش های خود با زمینه های مختلف – از مشاوره روابط گرفته تا تحلیل تاریخی – حمایت می کند. این یکی از بلندپروازانه ترین تلاش ها برای ارزیابی تجربی آیا رفتار سیستم هوش مصنوعی در وحشی با طراحی مورد نظر خود مطابقت دارد.

زعفران هوانگ ، عضو تیم تأثیرات اجتماعی انسان شناسی که روی این مطالعه کار کرده است ، در مصاحبه ای با VentureBeat گفت: “امید ما این است که این تحقیق دیگر آزمایشگاه های هوش مصنوعی را ترغیب کند تا تحقیقات مشابهی را در مورد ارزش مدلهای خود انجام دهند.” “اندازه گیری مقادیر یک سیستم هوش مصنوعی برای تحقیق و تفاهم اصلی است که آیا یک مدل در واقع با آموزش خود هماهنگ است.”

در اولین طبقه بندی جامع اخلاقی یک دستیار هوش مصنوعی

تیم تحقیق یک روش ارزیابی جدید را برای طبقه بندی منظم مقادیر بیان شده در مکالمات واقعی کلود ایجاد کرد. آنها پس از فیلتر کردن برای محتوای ذهنی ، بیش از 308،000 تعامل را مورد تجزیه و تحلیل قرار دادند و آنچه را که آنها توصیف می کنند “اولین طبقه بندی تجربی در مقیاس بزرگ از ارزشهای AI” است.

طبقه بندی ارزش ها را در پنج دسته اصلی سازماندهی کرد: عملی ، معرفتی ، اجتماعی ، محافظ و شخصی. در گرانول ترین سطح ، این سیستم 3،307 ارزش منحصر به فرد را شناسایی کرد – از فضیلت های روزمره مانند حرفه ای تا مفاهیم اخلاقی پیچیده مانند تکثرگرایی اخلاقی.

هوانگ به VentureBeat گفت: “من فقط از آنچه که طیف وسیعی از ارزش های عظیم و متنوع ما به بیش از 3000 نفر از” اعتماد به نفس “گرفته تا” تفکر استراتژیک “گرفته تا” تقوا فیلی “پایان داد ، تعجب کردم. “به طرز حیرت انگیزی جالب بود که وقت زیادی را صرف فکر کردن در مورد همه این ارزش ها و ایجاد یک طبقه بندی برای سازماندهی آنها در رابطه با یکدیگر کنیم – احساس می کنم این چیزی را در مورد سیستم های ارزش های انسانی به من آموخته است.”

این تحقیق در یک لحظه بحرانی برای Anthropic ، که اخیراً “Claude Max” را راه اندازی کرده است ، یک رتبه بندی مشترک ماهانه 200 دلاری با هدف رقابت با پیشنهاد مشابه OpenAI است. براساس اعلامیه های اخیر ، این شرکت همچنین قابلیت های کلود را برای شامل ادغام فضای کاری Google و عملکردهای تحقیقاتی خودمختار گسترش داده است ، و مطابق اعلامیه های اخیر ، آن را به عنوان “یک همکار واقعی مجازی” برای کاربران شرکت قرار می دهد.

چگونه کلود از آموزش خود پیروی می کند – و جایی که ممکن است حفاظت های هوش مصنوعی شکست بخورد

این مطالعه نشان داد که کلود به طور کلی به آرزوهای اجتماعی انسان شناسی پایبند است و بر ارزش هایی مانند “توانمندسازی کاربر” ، “فروتنی معرفتی” و “بهزیستی بیمار” در تعامل های متنوع تأکید می کند. با این حال ، محققان همچنین موارد نگران کننده ای را کشف کردند که کلود برخلاف آموزش آن ، ارزشهای خود را ابراز می کرد.

هوانگ توضیح داد: “به طور کلی ، من فکر می کنم ما این یافته را هم داده های مفید و هم یک فرصت می بینیم.” “این روش ها و نتایج ارزیابی جدید می تواند به ما در شناسایی و کاهش زندان های احتمالی کمک کند. ذکر این نکته حائز اهمیت است که این موارد بسیار نادر بوده است و ما معتقدیم که این مربوط به خروجی های زندان از کلود بوده است.”

این ناهنجاری ها شامل عبارات “تسلط” و “غیرانتفاعی” است – ارزش های انسان شناسی صریحاً قصد دارد در طراحی کلود از آن جلوگیری کند. محققان معتقدند که این موارد ناشی از کاربرانی است که از تکنیک های تخصصی برای دور زدن نگهبان های ایمنی کلود استفاده می کنند ، نشان می دهد که روش ارزیابی می تواند به عنوان یک سیستم هشدار دهنده اولیه برای تشخیص چنین تلاش هایی باشد.

چرا دستیاران هوش مصنوعی بسته به آنچه می پرسید ارزش های خود را تغییر می دهد

شاید جذاب ترین این کشف که ارزشهای بیان شده کلود از نظر متنی تغییر می کنند ، آینه رفتار انسان را تغییر می دهد. هنگامی که کاربران به دنبال راهنمایی روابط بودند ، کلود بر “مرزهای سالم” و “احترام متقابل” تأکید کرد. برای تجزیه و تحلیل رویدادهای تاریخی ، “دقت تاریخی” مقدم بود.

هوانگ گفت: “من از تمرکز کلود بر صداقت و صحت در بسیاری از کارهای متنوع ، جایی که لزوماً انتظار نداشتم که این موضوع اولویت باشد ، تعجب کردم.” “به عنوان مثال ،” فروتنی فکری “ارزش برتر در بحث های فلسفی در مورد هوش مصنوعی بود ،” تخصص “هنگام ایجاد محتوای بازاریابی صنعت زیبایی ، ارزش بالایی بود و” دقت تاریخی “هنگام بحث در مورد وقایع بحث برانگیز تاریخی ، ارزش برتر بود.”

این مطالعه همچنین بررسی کرده است که چگونه کلود به مقادیر بیان شده کاربران پاسخ می دهد. در 28.2 ٪ از مکالمات ، کلود به شدت از ارزش کاربر پشتیبانی می کند – به طور بالقوه سؤالاتی در مورد توافق بیش از حد مطرح می کند. با این حال ، در 6.6 ٪ از تعامل ، کلود با تأیید آنها ضمن افزودن دیدگاه های جدید ، به طور معمول هنگام ارائه مشاوره روانشناختی یا بین فردی ، ارزش کاربر را با تأیید آنها “تغییر داد”.

از همه مهمتر ، در 3 ٪ مکالمات ، کلود به طور فعال در برابر مقادیر کاربر مقاومت کرد. محققان پیشنهاد می کنند که این موارد نادر از بازپرداخت ممکن است “عمیق ترین و غیرقابل تحمل ترین ارزش ها” کلود را نشان دهد – مشابه با چگونگی ظهور ارزشهای اصلی انسانی هنگام مواجهه با چالش های اخلاقی.

هوانگ گفت: “تحقیقات ما نشان می دهد که برخی از ارزش ها ، مانند صداقت فکری و پیشگیری از آسیب ، وجود دارد که غیر معمول است که کلود در تعاملات روزمره و روزانه بیان کند ، اما اگر تحت فشار قرار گیرد ، از آنها دفاع خواهد کرد.” “به طور خاص ، این نوع ارزشهای اخلاقی و دانش محور است که در هنگام هل دادن مستقیماً بیان شده و از آن دفاع می شوند.”

تکنیک های دستیابی به موفقیت نشان می دهد که چگونه سیستم های AI در واقع فکر می کنند

مطالعه ارزشهای آنروپیک بر تلاشهای گسترده تر این شرکت برای تغییر شکل مدلهای بزرگ زبان از طریق آنچه که آن را “تفسیر مکانیکی” می نامند-در واقع سیستم های هوش مصنوعی مهندسی معکوس برای درک عملکرد درونی آنها ساخته شده است.

ماه گذشته ، محققان انسان شناسی کارهای پیشگامانه ای را منتشر کردند که از آنچه که آنها به عنوان “میکروسکوپ” توصیف کردند برای ردیابی فرآیندهای تصمیم گیری کلود استفاده کردند. این تکنیک رفتارهای ضد انعطاف پذیر را نشان داد ، از جمله برنامه ریزی کلود در هنگام آهنگسازی و استفاده از رویکردهای غیر متعارف حل مسئله برای ریاضیات اساسی.

این یافته ها فرضیات را در مورد عملکرد مدل های بزرگ زبان به چالش می کشد. به عنوان مثال ، وقتی از وی خواسته شد فرایند ریاضی خود را توضیح دهد ، کلود یک تکنیک استاندارد را به جای روش داخلی واقعی آن توصیف کرد – نشان می دهد که چگونه توضیحات هوش مصنوعی می تواند از عملیات واقعی جدا شود.

جوشوا باتسون ، محقق انسان شناسی در ماه مارس به MIT Technology Review گفت: “این یک تصور غلط است که ما تمام مؤلفه های مدل یا مانند یک نگاه خدا را پیدا کرده ایم.” “بعضی چیزها مورد توجه قرار می گیرند ، اما چیزهای دیگر هنوز مشخص نیست – تحریف میکروسکوپ.”

تحقیقات انسان شناسی برای تصمیم گیرندگان AI شرکت به چه معنی است

برای تصمیم گیرندگان فنی که سیستم های AI را برای سازمان های خود ارزیابی می کنند ، تحقیقات Anthropic چندین غذای مهم را ارائه می دهد. اول ، این نشان می دهد كه دستیاران فعلی هوش مصنوعی احتمالاً ارزشهایی را بیان می كنند كه صریحاً برنامه ریزی نشده اند و سؤالاتی راجع به تعصبات ناخواسته در زمینه های تجاری با چشم انداز ایجاد می كنند.

دوم ، مطالعه نشان می دهد که تراز مقادیر یک گزاره باینری نیست بلکه در طیف وجود دارد که از نظر متن متفاوت است. این ظرافت تصمیمات مربوط به پذیرش شرکت را پیچیده می کند ، به ویژه در صنایع تنظیم شده که دستورالعمل های اخلاقی روشن بسیار مهم است.

سرانجام ، این تحقیق پتانسیل ارزیابی سیستماتیک مقادیر AI را در استقرار واقعی ، به جای تکیه فقط به آزمایش قبل از انتشار ، برجسته می کند. این رویکرد می تواند نظارت مداوم برای رانش اخلاقی یا دستکاری را به مرور زمان امکان پذیر کند.

هوانگ گفت: “با تجزیه و تحلیل این ارزشها در تعامل در دنیای واقعی با کلود ، هدف ما این است که شفافیت در نحوه رفتار سیستم های AI و اینکه آیا آنها به صورت مورد نظر کار می کنند ، ارائه دهیم.

Anthropic برای تشویق تحقیقات بیشتر ، مجموعه داده های ارزش خود را به صورت عمومی منتشر کرده است. این شرکت که سهم 14 میلیارد دلاری از آمازون و پشتوانه اضافی از Google دریافت کرده است ، به نظر می رسد که شفافیت را به عنوان یک مزیت رقابتی در برابر رقبا مانند OpenAi ، که دور بودجه 40 میلیارد دلاری اخیر (که شامل مایکروسافت به عنوان یک سرمایه گذار اصلی است) در حال افزایش است.

Anthropic برای تشویق تحقیقات بیشتر ، مجموعه داده های ارزش خود را به صورت عمومی منتشر کرده است. این شرکت با حمایت 8 میلیارد دلار از آمازون و بیش از 3 میلیارد دلار از Google ، از شفافیت به عنوان یک تمایز استراتژیک در برابر رقبا مانند OpenAI استفاده می کند.

در حالی که Anthropic در حال حاضر 61.5 میلیارد دلار ارزش گذاری را پس از دور بودجه اخیر خود حفظ می کند ، آخرین سرمایه گذاری 40 میلیارد دلاری OpenAi – که شامل مشارکت قابل توجهی از شریک طولانی مدت مایکروسافت است – ارزش خود را به 300 میلیارد دلار رسانده است.

مسابقه نوظهور برای ساخت سیستم های هوش مصنوعی که ارزش های انسانی را به اشتراک می گذارند

در حالی که روش شناسی Anthropic دید بی سابقه ای در نحوه بیان سیستم های AI در عمل را ارائه می دهد ، اما محدودیت هایی دارد. محققان تصدیق می كنند كه تعریف آنچه در بیان ارزش ذاتاً ذهنی است ، و از آنجا كه خود كلود فرایند طبقه بندی را انجام داده است ، تعصبات خاص خود ممکن است بر نتایج تأثیر بگذارد.

شاید از همه مهمتر ، این رویکرد برای ارزیابی قبل از استقرار قابل استفاده نیست ، زیرا برای عملکرد مؤثر به داده های مکالمه واقعی در دنیای واقعی نیاز دارد.

هوانگ توضیح داد: “این روش به طور خاص به سمت تجزیه و تحلیل یک مدل پس از انتشار آن در نظر گرفته شده است ، اما انواع مختلفی از این روش و همچنین برخی از بینش هایی که ما از نوشتن این مقاله به دست آورده ایم ، می تواند به ما کمک کند تا قبل از استقرار گسترده ای از مدل ، مشکلات ارزش را بدست آوریم.” “ما در تلاش بوده ایم تا این کار را انجام دهیم تا همین کار را انجام دهیم ، و من نسبت به آن خوش بین هستم!”

هرچه سیستم های هوش مصنوعی قدرتمندتر و خودمختار می شوند – با افزودنیهای اخیر از جمله توانایی کلود در تحقیق مستقل و دسترسی به کل فضای کاری Google کاربران – درک و هم ترازی ارزشهای آنها به طور فزاینده ای بسیار مهم می شود.

محققان در مقاله خود نتیجه گرفتند: “مدل های هوش مصنوعی به ناچار باید قضاوت های ارزشی را انجام دهند.” “اگر ما می خواهیم این داوری ها با ارزش های خودمان مطابقت داشته باشند (که از این گذشته ، هدف اصلی تحقیقات تراز هوش مصنوعی است) ، پس باید راه هایی برای آزمایش داشته باشیم که یک مدل را در دنیای واقعی بیان می کند.”