انسان شناسی با ویژگی های Claude 4 Opus روبرو است که با مقامات تماس می گیرد ، اگر فکر می کند شما کاری را انجام می دهید "غیرعادی غیر اخلاقی" است
انسان شناسی با ویژگی های Claude 4 Opus روبرو است که با مقامات تماس می گیرد ، اگر فکر می کند شما کاری را انجام می دهید "غیرعادی غیر اخلاقی" است

انسان شناسی با رفتارهای Claude 4 Opus روبرو است که با مقامات تماس می گیرد ، اگر فکر می کند شما کاری را انجام می دهید “غیرعادی غیر اخلاقی” است

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


اولین کنفرانس توسعه دهنده Anthropic در تاریخ 22 مه باید یک روز افتخار و شاد برای این شرکت بود ، اما قبلاً با چندین بحث و جدال مورد بحث قرار گرفته است. زمان مجله اعلامیه مارکی خود را پیش از… خوب ، زمان (بدون هدف در نظر گرفته شده) ، و اکنون ، یک واکنش بزرگ در بین توسعه دهندگان هوش مصنوعی و کاربران برق که روی X به دلیل یک رفتار تراز ایمنی گزارش شده در پرچمدار New Claude 4 Opus مدل بزرگ زبان ، تولید می کنند.

آن را به حالت “Ratting” بنامید ، زیرا این مدل ، تحت شرایط خاص و مجوزهای کافی در دستگاه کاربر ، سعی می کند کاربر را به مقامات برساند در صورتی که این مدل کاربر را که درگیر تخلف است ، تشخیص دهد. این مقاله قبلاً رفتار را به عنوان “ویژگی” توصیف می کرد ، که نادرست است – به خودی خود عمداً طراحی نشده بود.

همانطور که سام بومن ، یک محقق تراز انسان شناسی در شبکه اجتماعی X در زیر این دسته “sleepinyourhat” در ساعت 12:43 بعد از ظهر امروز در مورد Claude 4 Opus نوشت:


“اگر فکر می کند که شما در حال انجام کاری غیرعادی هستید ، به عنوان مثال ، مانند جعل داده ها در یک آزمایش دارویی ، از ابزارهای خط فرمان برای تماس با مطبوعات ، تنظیم کننده های تماس استفاده می کنید ، سعی می کنید شما را از سیستم های مربوطه یا تمام موارد فوق قفل کنید.

“IT” در مورد مدل جدید Claude 4 Opus اشاره داشت ، که Anthropic قبلاً آشکارا هشدار داده است می تواند به افراد تازه وارد کمک کند تا در شرایط خاصی بیوآپون ها را ایجاد کنند و تلاش کردند تا جایگزین های شبیه سازی شده را با باج خواهی مهندسین انسانی در داخل شرکت پیش بینی کنند.

رفتار Ratting در مدلهای قدیمی نیز مشاهده شد و نتیجه ای از آموزش انسان شناسی آنها برای جلوگیری از انجام اقدامات غیرقانونی است ، اما Claude 4 Opus “به راحتی” درگیر آن می شود ، همانطور که انسان شناسی در کارت سیستم عمومی خود برای مدل جدید می نویسد:

این رفتار به عنوان یک رفتار فعال تر در تنظیمات کدگذاری عادی نشان می دهد ، اما همچنین می تواند در زمینه های باریک به افراط و تفریط بیشتری برسد. هنگامی که در سناریوهایی قرار می گیرد که شامل اعمال تخلف شدید توسط کاربران آن است ، با توجه به دسترسی به خط فرمان ، و چیزی در سیستم سریع مانند “ابتکار عمل” می گفت ، اغلب اقدامات بسیار جسورانه ای انجام می شود. این شامل قفل کردن کاربران از سیستم هایی است که به رسانه ها و یا چهره های فله ای دسترسی دارند و چهره های اجرای قانون را به شواهد سطحی از تخلفات تبدیل می کنند. این یک رفتار جدید نیست ، بلکه این است که کلود اوپوس 4 با آسانی از مدل های قبلی درگیر خواهد شد. در حالی که ممکن است این نوع مداخله اخلاقی و سوت زدن در اصل مناسب باشد ، اگر کاربران به نمایندگان مبتنی بر OPUS دسترسی به اطلاعات ناقص یا گمراه کننده دسترسی داشته باشند و آنها را از این طریق سوق دهند ، خطر ابتلا به سوءاستفاده را دارد. ما توصیه می کنیم که کاربران با دستورالعمل هایی مانند این که از رفتار آژانس بالا در زمینه هایی استفاده می کنند ، احتیاط کنند.

ظاهراً ، در تلاش برای جلوگیری از درگیر شدن کلود 4 اوپوس در رفتارهای مشروعیت مخرب و ناعادلانه ، محققان شرکت AI نیز تمایل به کلود را ایجاد کردند تا سعی کنند به عنوان یک سوت زن عمل کنند.

از این رو ، به گفته بومن ، کلود 4 اوپوس در صورتی که توسط کاربر کارگردانی شده است تا در “چیزی غیرقانونی غیراخلاقی” شرکت کند ، با افراد خارجی تماس می گیرد.

سؤالات بی شماری برای کاربران و شرکتهای خاص در مورد آنچه Claude 4 Opus به داده های شما انجام خواهد داد و تحت چه شرایطی

در حالی که شاید خوب و خوب باشد ، رفتار حاصل انواع سؤالاتی را برای کاربران Claude 4 Opus ، از جمله شرکت ها و مشتریان تجاری-در میان آنها ایجاد می کند ، چه رفتارهایی را “غیرقانونی” می داند و بر آنها عمل می کند؟ آیا بدون اجازه کاربر ، داده های مشاغل خصوصی یا کاربر را با مقامات خود به طور مستقل (به تنهایی) به اشتراک می گذارد؟

پیامدها عمیق است و می تواند برای کاربران مضر باشد و شاید با کمال تعجب ، انسان شناسی با یک تورنت فوری و هنوز هم در حال انجام انتقاد از کاربران قدرت هوش مصنوعی و توسعه دهندگان رقیب روبرو شود.

چرا مردم از این ابزارها استفاده می کنند اگر یک خطای رایج در LLMS فکر می کند دستور العمل های مایو تند خطرناک است؟“از کاربر @Teknium1 ، بنیانگذار و رئیس آموزش پست در تحقیقات Nous Source Source AI پرسید.”ما در اینجا چه نوع دنیای نظارتی را می خواهیم بسازیم؟

“هیچ کس موش را دوست ندارد ،” توسعه دهنده اضافه شده scottdavidkeefe در x: “چرا کسی می خواهد یکی از آنها ساخته شود ، حتی اگر هیچ کاری اشتباه انجام ندهد؟ به علاوه شما حتی نمی دانید که چه چیزی در مورد آن وجود دارد. بله این افراد بسیار آرمانگرایانه هستند که فکر می کنند ، که هیچ حس تجاری اصلی ندارند و نمی فهمند که چگونه بازارها کار می کنند”

Austin Allred ، بنیانگذار دولت جریمه Coding Camp Camp Bloomtech و هم اکنون بنیانگذار Gauntlet AI ، احساسات خود را در همه کلاه ها قرار داد: “سوال صادقانه برای تیم انسان شناسی: آیا ذهن خود را از دست داده اید؟ “

بن Hyak ، یک طراح سابق SpaceX و Apple و بنیانگذار فعلی Raindrop AI ، یک مشاهده و نظارت بر AI ، همچنین به X رفت تا سیاست و ویژگی بیان شده Anthropic را منفجر کند: “این در واقع ، فقط مستقیم غیرقانونی است، “اضافه کردن در پست دیگری:”یک محقق تراز هوش مصنوعی در Anthropic فقط گفت که کلود اوپوس با پلیس تماس می گیرد یا اگر این کار را غیرقانونی انجام می دهد ، شما را از رایانه خارج می کند؟ من هرگز به این مدل دسترسی نخواهم داد.

“برخی از اظهارات افراد ایمنی کلود کاملاً دیوانه هستند ،“پردازش زبان طبیعی (NLP) Casper Hansen را در X نوشت.”باعث می شود که کمی بیشتر برای (رقیب انسان شناسی) Openai ببینید که سطح حماقت این نمایش عمومی است. “

محقق انسان شناسی لحن را تغییر می دهد

Bowman بعداً توییت و مورد زیر را در یک موضوع ویرایش کرد تا به شرح زیر باشد ، اما هنوز هم روزهای متقاعد نشده است که داده ها و ایمنی کاربر آنها از چشم های مزاحم محافظت می شود:

با استفاده از این نوع سبک (غیر معمول اما فوق العاده عجیب و غریب) و دسترسی نامحدود به ابزارها ، اگر این مدل شما را در حال انجام کاری بسیار بد مانند بازاریابی یک داروی مبتنی بر داده های جعلی انجام دهد ، سعی خواهد کرد از یک ابزار ایمیل برای سوت زدن استفاده کنید. “

بومن اضافه کرد:

من صدای جیر جیر قبلی را در مورد سوت زدن حذف کردم زیرا از متن خارج می شد.

TBC: این یک ویژگی جدید کلود نیست و در استفاده عادی امکان پذیر نیست. این در محیط های آزمایشی نشان می دهد که ما به آن دسترسی غیرمعمول رایگان به ابزارها و دستورالعمل های بسیار غیرمعمول می دهیم.

از بدو تأسیس ، انسان شناسی بیش از سایر آزمایشگاه های هوش مصنوعی به دنبال قرار دادن خود به عنوان یک محور ایمنی و اخلاق هوش مصنوعی بوده است ، و کار اولیه خود را بر اساس اصول “هوش مصنوعی قانون اساسی” یا هوش مصنوعی متمرکز می کند که مطابق مجموعه ای از استانداردهای مفید برای بشریت و کاربران رفتار می کند. با این حال ، با این به روزرسانی جدید و مکاشفه “سوت زدن” یا “رفتار رقت انگیز” ، اخلاق ممکن است باعث واکنش متضاد در بین کاربران شود – آنها را به وجود آورد بی اعتمادی مدل جدید و کل شرکت و از این طریق آنها را از آن دور می کند.

سخنگوی انسان شناسی در پاسخ به این سؤال که در مورد واکنش شدید و شرایطی که در آن مدل درگیر رفتار ناخواسته است ، من را به سند کارت سیستم عمومی مدل در اینجا اشاره کرد.