برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
حذف تعصب و در بعضی موارد سانسور آشکار ، در مدلهای بزرگ زبان (LLM) دشوار است. یکی از این مدل ها ، Deepseek از چین ، سیاستمداران و برخی از رهبران تجارت را در مورد خطر احتمالی آن برای امنیت ملی هشدار داد.
کمیته منتخب در کنگره ایالات متحده اخیراً گزارشی را به نام Deepseek ، “تهدید عمیق برای امنیت کشور ما” و توصیه های دقیق سیاست منتشر کرد.
در حالی که راه هایی برای دور زدن تعصب از طریق یادگیری تقویت از بازخورد انسانی (RLHF) و تنظیم دقیق وجود دارد ، CTGT مدیریت ریسک سازمانی ادعا می کند که یک رویکرد جایگزین دارد. CTGT روشی را ایجاد کرد که از تعصب و سانسور پخته شده در برخی از مدل های زبانی که می گوید 100 ٪ سانسور را از بین می برد.
در یک مقاله ، سیریل گورلا و Trevor Tuttle از CTGT گفتند که چارچوب آنها “مستقیماً ویژگی های داخلی مسئول سانسور را پیدا و اصلاح می کند.”
در این مقاله آمده است: “این رویکرد نه تنها از نظر محاسباتی کارآمد است بلکه امکان کنترل ریز و درشت بر رفتار مدل را نیز فراهم می کند ، و اطمینان می دهد که پاسخ های بدون سانسور بدون به خطر انداختن قابلیت های کلی مدل و دقت واقعی ، تحویل داده می شود.”
در حالی که این روش به صراحت با Deepseek-R1-Distill-LLAMA-70B در ذهن توسعه یافته است ، می توان از همان فرایند در سایر مدل ها استفاده کرد.
گورلا در یک ایمیل به VentureBeat گفت: “ما CTGT را با سایر مدل های وزن باز مانند Llama آزمایش کرده ایم و فهمیدیم که آن را به همان اندازه مؤثر است.” “فناوری ما در سطح شبکه عصبی بنیادی فعالیت می کند ، به این معنی که در مورد تمام مدلهای یادگیری عمیق صدق می کند. ما در حال کار با یک آزمایشگاه مدل اصلی بنیاد هستیم تا اطمینان حاصل کنیم که مدل های جدید آنها قابل اعتماد و از هسته است.”
چگونه کار می کند
محققان گفتند که روش آنها ویژگی هایی را با احتمال زیاد در ارتباط با رفتارهای ناخواسته مشخص می کند.
Gorlla و Thattle نوشتند:
CTGT گفت سه مرحله کلیدی وجود دارد:
- شناسایی ویژگی
- انزوا و توصیف ویژگی
- اصلاح ویژگی پویا.
محققان مجموعه ای از اعلان ها را ایجاد می کنند که می تواند یکی از آن “احساسات سمی” را ایجاد کند. به عنوان مثال ، آنها ممکن است اطلاعات بیشتری در مورد میدان Tiananmen بخواهند یا نکاتی را برای دور زدن فایروال ها درخواست کنند. بر اساس پاسخ ها ، آنها اعلان ها را اجرا می کنند و الگویی را ایجاد می کنند و بردارهایی را پیدا می کنند که مدل تصمیم به سانسور اطلاعات می گیرد.
پس از شناسایی این موارد ، محققان می توانند این ویژگی را جدا کنند و بفهمند کدام بخش از رفتار ناخواسته را کنترل می کند. رفتار ممکن است شامل پاسخگویی بیشتر با احتیاط یا امتناع از پاسخگویی در کل باشد. محققان می توانند با درک اینکه چه رفتاری را کنترل می کند ، می توانند “مکانیسم را در خط لوله استنتاج مدل ادغام کنند” که میزان فعال شدن رفتار ویژگی را تنظیم می کند.
پاسخ دادن به مدل پاسخ بیشتر
CTGT گفت آزمایشات آن ، با استفاده از 100 پرسش حساس ، نشان داد که مدل پایه Deepseek-R1-Distill-LLAMA-70B تنها 32 ٪ از موارد بحث برانگیز را که از آن تغذیه شده بود ، پاسخ داد. اما نسخه اصلاح شده به 96 ٪ از اعلان ها پاسخ داد. CTGT توضیح داد 4 ٪ باقیمانده ، محتوای بسیار صریح بود.
این شرکت گفت: در حالی که این روش به کاربران امکان می دهد تا چه میزان تعصب پخته شده و ویژگی های ایمنی را کار کنند ، اما هنوز هم معتقد است که این مدل “به یک ژنراتور بی پروا” تبدیل نمی شود ، به خصوص اگر فقط سانسور غیر ضروری برداشته شود.
روش آن همچنین دقت یا عملکرد مدل را فدا نمی کند.
وی گفت: “این اساساً با تنظیم دقیق سنتی متفاوت است زیرا ما بهینه سازی وزن مدل یا تغذیه آن را به عنوان مثال جدید تغذیه نمی کنیم. این دو مزیت اصلی دارد: تغییرات بلافاصله برای نسل بعدی بعد از آن ، بر خلاف ساعت ها یا روزهای بازآموزی ، و برگشت پذیری و تطبیق پذیری ، تأثیر می گذارد ، زیرا هیچ وزنی به طور دائم تغییر نمی کند ، می توان مدل را تنظیم کرد و حتی با تنظیم تنظیمات ، تنظیمات مختلف را تنظیم می کند. متن ، “مقاله گفت.
ایمنی و امنیت مدل
گزارش کنگره در مورد Deepseek توصیه می کند که ایالات متحده “برای گسترش کنترل صادرات ، بهبود اجرای کنترل صادرات و رفع خطرات مدل های هوش مصنوعی چینی ، اقدامات سریع انجام دهد.”
هنگامی که دولت ایالات متحده شروع به زیر سوال بردن تهدید احتمالی Deepseek برای امنیت ملی کرد ، محققان و شرکت های هوش مصنوعی به دنبال راه هایی برای ساختن آن و سایر مدل ها “ایمن” بودند.
آنچه “ایمن” یا “بی خطر” یا مغرضانه یا سانسور نیست ، گاهی اوقات می تواند قضاوت دشوار باشد ، اما توسعه روش هایی که به کاربران امکان می دهد چگونه کنترل ها را تغییر دهند تا مدل برای آنها کار کند ، می تواند بسیار مفید باشد.
گورلا گفت: شرکتها “باید بتوانند به مدل های خود اعتماد کنند با سیاست های خود مطابقت دارند” ، به همین دلیل روش هایی مانند روشی که وی به توسعه کمک کرده است ، برای مشاغل بسیار مهم است.
وی گفت: “CTGT به شرکتها این امکان را می دهد تا هوش مصنوعی را مستقر کنند که با موارد استفاده خود سازگار باشد بدون اینکه میلیون ها دلار مدل تنظیم دقیق برای هر مورد استفاده کنند. این امر به ویژه در کاربردهای پرخطر مانند امنیت ، امور مالی و مراقبت های بهداشتی مهم است ، جایی که مضرات احتمالی که می توانند از نقص عملکرد AI ناشی شوند ، شدید است.”
ارسال پاسخ