برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
به گفته ردیاب های شخص ثالث ، Midjourney بیشتر به عنوان یکی از ژنراتورهای پیشرو در تصویر هوش مصنوعی شناخته می شود-با نزدیک به 20 میلیون کاربر در کانال Discord خود ، و احتمالاً بیشتر در بالای وب سایت خود قرار دارد-اما جاه طلبی های آن در حال گسترش است.
این شرکت به دنبال این خبر در اواخر تابستان 2024 مبنی بر ساخت محاسبات و سخت افزار هوش مصنوعی خود ، این شرکت یک مقاله تحقیقاتی جدید را در کنار کارشناسان یادگیری ماشین در دانشگاه نیویورک (NYU) در مورد آموزش مدلهای بزرگ زبان مبتنی بر متن (LLMS) مانند منبع باز متا و مدل های منبع ناشناس MINSTRAL منتشر کرد تا صریح تر بنویسد.
این همکاری ، که در یک مقاله تحقیقاتی جدید منتشر شده است که در AI Code Community Bugging Face منتشر شده است ، دو تکنیک جدید – بهینه سازی ترجیح مستقیم مستقیم (DDPO) و بهینه سازی نسبت شانس متنوع (DORPO) را معرفی می کند (DORPO) – طراحی شده برای گسترش دامنه خروجی های احتمالی ضمن حفظ انسجام و خوانایی.
برای شرکتی که به دلیل مدل های تولید تصویر AI انتشار AI بیشتر شناخته شده است ، رویکرد جدید Midjourney برای تجدید نظر در خلاقیت در LLMS مبتنی بر متن نشان می دهد که این جاه طلبی های خود را به تصاویر محدود نمی کند ، و این ممکن است یک تصویر در واقع هزار کلمه ارزش نداشته باشد.
آیا می توان یک نسخه LLM یا تنظیم شده خوب از یک LLM موجود در Midjourney-Bative LLM موجود در کارتهای راه اندازی کوچک و بوت شده بود؟ من به دیوید هولز ، بنیانگذار Midjourney رسیدم اما هنوز نشنیده ام.
صرف نظر از ارائه یک شخص اول Midjourney LLM ، پیامدهای تحقیقات جدید آن فراتر از تمرینات دانشگاهی است و می تواند برای کمک به ایجاد موج جدیدی از آموزش LLM در بین تیم های هوش مصنوعی شرکت ، توسعه دهندگان محصول و سازندگان محتوا که به دنبال بهبود متن تولید شده AI هستند ، استفاده شود.
همچنین نشان می دهد که علیرغم علاقه و سرمایه گذاری اخیر در بین ارائه دهندگان مدل هوش مصنوعی در مدل های جدید زبان چند مدلی و استدلال ، هنوز آب زیادی برای فشرده شدن ، شناختی و عملکردی باقی مانده است ، از LLM های کلاسیک مبتنی بر ترانسفورماتور ، مبتنی بر متن.
مشکل: نوشتن ناشی از AI در اطراف خروجی های همگن فرو می رود
در دامنه هایی مانند پرسش و پاسخ مبتنی بر واقعیت یا کمک به برنامه نویسی ، انتظار می رود LLM ها بهترین پاسخ واحد را ایجاد کنند.
با این حال ، نوشتن خلاق ذاتاً باز است ، به این معنی که پاسخ های معتبر زیادی به یک سریع وجود دارد.
برای نمونه ای که توسط محققان میانسای ارائه شده است ، با توجه به سریع مانند “داستانی در مورد یک سگ روی ماه بنویسید”، LLM می تواند چندین مسیر متنوع مانند:
- یک سگ حیوان خانگی یک فضانورد به طور تصادفی پس از یک مأموریت قمری پشت سر گذاشت.
- سگی که خود را در یک مستعمره فضایی سگ آینده نگر پیدا می کند.
- یک سگ رشته ای که با یک گونه بیگانه دوست می شود.
با وجود این طیف وسیعی از امکانات ، LLM های تنظیم شده با دستورالعمل اغلب در داستان ها و مضامین مشابه همگرا می شوند. این اتفاق می افتد زیرا:
- تکنیک های پس از آموزش اولویت بندی ترجیح کاربر بر اصالت را در اولویت قرار می دهد و پاسخ های محبوب اما تکراری را تقویت می کند.
- تنظیم دستورالعمل اغلب تغییرات را صاف می کند ، و باعث می شود مدل ها از پاسخ های “ایمن” نسبت به نمونه های منحصر به فرد استفاده کنند.
- تکنیک های تقویت کننده تنوع موجود (مانند تنظیم دما) فقط در زمان استنباط کار می کنند ، نه اینکه در فرایند یادگیری مدل پخته شوند.
این منجر به داستان پردازی یکدست می شود ، جایی که نوشتن خلاق ناشی از AI احساس تکراری می کند و فاقد تعجب یا عمق است.
راه حل: اصلاح روشهای پس از آموزش برای اولویت بندی تنوع
برای غلبه بر این محدودیت ها ، محققان DDPO و DORPO را معرفی کردند ، دو روش پسوند از روشهای بهینه سازی اولویت موجود. نوآوری اصلی در این رویکردها استفاده از انحراف – اندازه گیری میزان پاسخ با دیگران برای راهنمایی آموزش است.
در اینجا نحوه عملکرد آن آورده شده است:
- در حین آموزش ، به این مدل پاسخ سریع و چندین پاسخ ممکن داده می شود.
- هر پاسخ برای همان سریع با دیگران مقایسه می شود و نمره انحراف محاسبه می شود.
- پاسخ های نادر اما با کیفیت بالا در آموزش به شدت وزن می شود و مدل را ترغیب می کند تا از نمونه های متنوع یاد بگیرد.
این مدل با ترکیب انحراف در بهینه سازی اولویت مستقیم (DPO) و بهینه سازی ترجیح نسبت شانس (ORPO) ، این مدل می آموزد که پاسخ های با کیفیت بالا اما متنوع تر تولید کند.
این روش تضمین می کند که داستانهای تولید شده AI بر روی یک ساختار قابل پیش بینی همگرا نمی شوند ، بلکه در عوض طیف گسترده تری از شخصیت ها ، تنظیمات و مضامین را کشف می کنند-درست به عنوان یک نویسنده انسانی.
آنچه محققان Midjourney برای دستیابی به این هدف انجام دادند
این مطالعه شامل آموزش LLMS در زمینه کارهای نوشتن خلاق با استفاده از مجموعه داده از Subreddit r/WritingPrompts ، یک جامعه Reddit است که در آن کاربران ارسال می کنند و با داستان های کوتاه پاسخ می دهند.
محققان از دو مدل پایه برای آموزش خود استفاده کردند:
- Meta's Llama-3.1-8B (یک مدل 8 میلیارد پارامتر از سری Llama 3).
- mistral-7b-v0.3 (یک مدل 7 میلیارد پارامتر از Mistral AI).
سپس ، آنها این مدل ها را از طریق فرآیندهای زیر گرفتند:
- تنظیم دقیق نظارت (SFT): این مدل ها برای اولین بار با استفاده از LORA (سازگاری با درجه پایین) تنظیم شدند تا پارامترها را به طور مؤثر تنظیم کنند.
- بهینه سازی اولویت:
- از DPO و ORPO به عنوان خط مقدم استفاده شد– این روشهای استاندارد بر بهبود کیفیت پاسخ بر اساس سیگنال های اولویت کاربر متمرکز است.
- DDPO و DORPO پس از آن اعمال شدند، معرفی وزن مبتنی بر انحراف برای تشویق پاسخ های منحصر به فرد تر.
- ارزیابی:
- ارزیابی خودکار: تنوع معنایی و سبکی اندازه گیری شده با استفاده از تکنیک های مبتنی بر تعبیه.
- ارزیابی انسانی: قضات ارزیابی کردند که آیا خروجی ها در مقایسه با GPT-4O و کلود 3.5 متنوع و جذاب هستند.
یافته های کلیدی آموزش:
- DDPO به طور قابل توجهی از DPO استاندارد پیشی گرفته است از نظر تنوع خروجی ضمن حفظ کیفیت.
- Llama-3.1-8B با DDPO به بهترین تعادل دست یافت از کیفیت و تنوع ، پاسخ هایی که وجود داشتند متنوع تر از GPT-4O ضمن حفظ انسجام.
- هنگامی که اندازه مجموعه داده کاهش می یابد، مدل های DDPO هنوز هم تنوع را حفظ می کنند ، اگرچه به تعداد مشخصی از نمونه های متنوع آموزش نیاز داشتند تا کاملاً مؤثر باشند.
پیامدهای سازمانی: برای کسانی که از هوش مصنوعی استفاده می کنند برای تولید پاسخ های خلاقانه – از جمله در بازاریابی نوشتن ، داستان پردازی شرکتی و فیلمبرداری فیلم/تلویزیون/ویدیویی – چه معنایی دارد؟
برای تیم های هوش مصنوعی مدیریت LLM ، افزایش تنوع تولید در حالی که حفظ کیفیت یک چالش مهم است. این یافته ها پیامدهای قابل توجهی برای سازمانهایی دارد که به محتوای تولید شده توسط AI در برنامه هایی مانند:
- هوش مصنوعی مکالمه و چت بابات (اطمینان از پاسخ های متنوع و جذاب).
- بازاریابی محتوا و ابزارهای قصه گویی (جلوگیری از کپی تکراری AI).
- توسعه بازی و طراحی روایت (ایجاد گفتگوی متنوع و داستانهای شاخه ای).
برای متخصصان مسئول تنظیم دقیق و استقرار مدل ها در یک شرکت ، این تحقیق ارائه می دهد:
- یک رویکرد جدید برای آموزش LLM که خلاقیت را بدون قربانی کردن کیفیت تقویت می کند.
- یک جایگزین عملی برای تنظیم تنوع زمان استنباط (مانند تنظیم دما) با ادغام تنوع در خود فرایند یادگیری.
- پتانسیل توسعه برنامه های هوش مصنوعی جذاب تر ، از ابزارهای نوشتاری با کمک هوش مصنوعی گرفته تا دستیاران مجازی که می توانند پاسخ های خود را به صورت پویا تطبیق دهند.
برای کسانی که از ارکستراسیون و اتوماسیون مدل AI استفاده می کنند ، این تحقیق برجسته است:
- اهمیت مدل های تنظیم در مرحله آموزش ، کاهش نیاز به تنظیمات پس از پردازش در هنگام استقرار.
- راهی برای معرفی قصه گویی تطبیقی در برنامه های AI محور ، اطمینان از تغییرپذیری ضمن حفظ کیفیت محتوا.
- روشی برای ساخت خروجی های LLM مانند انسان ، که برای برنامه های کاربردی که نیاز به داستان پردازی تعاملی ، تعامل با مشتری یا ایجاد محتوای پویا دارند ، بسیار مهم است.
آینده AI پروژه های خلاق ایجاد شده روشن به نظر می رسد
موفقیت DDPO و DORPO نشان می دهد که آموزش LLMS با اهداف متمرکز بر تنوع می تواند پیشرفت های قابل توجهی در نوشتن خلاق داشته باشد. برخی از ایده ها عبارتند از:
- ادغام یادگیری مبتنی بر انحراف در مدل های AI شرکت برای تقویت تنوع پاسخ در برنامه های مشتری مداری.
- بررسی نحوه کاربرد این روشها در سایر کارهای تولیدی، مانند شعر ، فیلمنامه نویسی یا داستان پردازی بازی.
- توسعه رویکردهای آموزش ترکیبی این تعادل قابلیت های تنوع و آموزش برای دستیاران هوش مصنوعی.
برای کسانی که علاقه مند به استفاده از این تکنیک ها هستند ، محققان قصد دارند کد خود را به صورت عمومی در این مخزن GitHub در دسترس قرار دهند
این که آیا شما برای برنامه های تجاری یا بهینه سازی ارکستراسیون AI در مقیاس بزرگ ، LLM های تنظیم شده خوب را تنظیم می کنید ، این مطالعه بینش های عملی را در مورد چگونگی مدل ها می تواند پویاتر ، جذاب تر و پاسخگو به کارهای خلاقانه ارائه دهد.
با اتخاذ این تکنیک ها ، تیم های هوش مصنوعی می توانند فراتر از خروجی های سفت و سخت و فرمول باشند – ساخت سیستم های هوش مصنوعی که نه تنها باهوش هستند بلکه واقعاً تخیل هستند.
ارسال پاسخ