برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
Openai امروز در حساب توسعه دهنده خود در شبکه اجتماعی X اعلام کرد که توسعه دهندگان نرم افزار شخص ثالث در خارج از شرکت می توانند برای مدل استدلال جدید زبان O4-Mini خود به تنظیم مجدد (RFT) دسترسی پیدا کنند ، و این امکان را برای آنها فراهم می کند تا یک نسخه جدید و خصوصی از آن را بر اساس محصولات منحصر به فرد خود ، اصطلاحات داخلی ، اهداف ، کارمندان ، فرآیند ها و موارد دیگر شخصی سازی کنند.
در اصل ، این قابلیت به توسعه دهندگان این امکان را می دهد تا مدل را در دسترس عموم قرار دهند و آن را تسکین دهند تا با استفاده از داشبورد پلت فرم OpenAI ، نیازهای خود را بهتر متناسب کند.
سپس ، آنها می توانند آن را از طریق رابط برنامه نویسی برنامه OpenAI (API) ، بخش دیگری از پلتفرم توسعه دهنده خود مستقر کنند و آن را به رایانه های داخلی ، پایگاه داده ها و برنامه های داخلی خود متصل کنند.
پس از استقرار ، اگر یک کارمند یا رهبر شرکت بخواهد از آن از طریق یک Chatbot داخلی سفارشی یا Custom Openai GPT استفاده کند تا دانش شرکت اختصاصی و اختصاصی را بالا ببرد. یا برای پاسخ به سؤالات خاص در مورد محصولات و سیاست های شرکت ؛ یا ایجاد ارتباطات و وثیقه جدید در صدای شرکت ، آنها می توانند با نسخه RFT مدل خود راحت تر این کار را انجام دهند.
با این حال ، یک نکته هشدار دهنده: تحقیقات نشان داده است که مدل های تنظیم شده خوب ممکن است مستعد ابتلا به زندان و توهم باشند ، بنابراین با احتیاط ادامه دهید!
این پرتاب ابزارهای بهینه سازی مدل شرکت را فراتر از تنظیم دقیق نظارت (SFT) گسترش می دهد و کنترل انعطاف پذیر تری را برای کارهای پیچیده و خاص دامنه معرفی می کند.
علاوه بر این ، Openai اعلام کرد که تنظیم دقیق تحت نظارت اکنون برای مدل GPT-4.1 NANO خود ، مقرون به صرفه ترین و سریعترین پیشنهاد این شرکت تا به امروز پشتیبانی می شود.
چگونه تنظیم مجدد تقویت کننده (RFT) به سازمان ها و شرکت ها کمک می کند؟
RFT نسخه جدیدی از مدل استدلال O4-Mini Openai را ایجاد می کند که به طور خودکار با اهداف کاربر یا شرکت های سازمانی/سازمان آنها سازگار است.
این کار را با استفاده از یک حلقه بازخورد در حین آموزش انجام می دهد ، که توسعه دهندگان در شرکت های بزرگ (یا حتی توسعه دهندگان مستقل که به تنهایی کار می کنند) می توانند از طریق پلت فرم توسعه دهنده آنلاین OpenAI ، نسبتاً ، به راحتی و مقرون به صرفه را آغاز کنند.
RFT به جای آموزش روی مجموعه ای از سؤالات با پاسخ های ثابت – این همان چیزی است که یادگیری تحت نظارت سنتی انجام می دهد – RFT از یک مدل Grader برای کسب چندین پاسخ نامزد در هر فوری استفاده می کند.
الگوریتم تمرینی سپس وزن مدل را تنظیم می کند تا خروجی های با نمره بالا محتمل تر شوند.
این ساختار به مشتریان این امکان را می دهد تا مدل ها را با اهداف ظریف مانند “سبک خانه” ارتباطات و اصطلاحات ، قوانین ایمنی ، دقت واقعی یا پیروی از سیاست داخلی تراز کنند.
برای انجام RFT ، کاربران باید:
- یک عملکرد درجه بندی را تعریف کنید یا از کلاس های مبتنی بر مدل OpenAI استفاده کنید.
- یک مجموعه داده را با ارسال ها و تقسیم اعتبار بار بارگذاری کنید.
- یک کار آموزشی را از طریق API یا داشبورد تنظیم دقیق پیکربندی کنید.
- نظارت بر پیشرفت ، بررسی پاسگاه ها و تکرار در مورد داده ها یا منطق درجه بندی.
RFT در حال حاضر فقط از مدل های استدلال سری O پشتیبانی می کند و برای مدل O4-Mini در دسترس است.
موارد اولیه استفاده از شرکت
OpenAI در سکو خود ، چندین مشتری اولیه را که RFT را در صنایع متنوع اتخاذ کرده اند ، برجسته کرد:
- توافق نامه هوش مصنوعی RFT برای تنظیم دقیق یک مدل برای کارهای پیچیده تجزیه و تحلیل مالیاتی ، دستیابی به بهبود 39 ٪ در دقت و عملکرد بهتر از تمام مدلهای پیشرو در معیارهای استدلال مالیاتی استفاده شده است.
- مراقبت های بهداشتی RFT اعمال شده در ICD-10 اختصاص کد پزشکی ، افزایش عملکرد مدل با 12 امتیاز نسبت به پایه های پزشک در یک مجموعه داده پانل طلا.
- هاروی از RFT برای تجزیه و تحلیل اسناد حقوقی استفاده شده ، بهبود استخراج استناد به نمرات F1 20 ٪ و تطبیق GPT-4O در صحت ضمن دستیابی به استنتاج سریعتر.
- رگ مدل های تنظیم شده خوب برای تولید قطعه های کد API Stripe ، با استفاده از کلاس های آگاهانه نحو و منطق اعتبار سنجی AST ، دستیابی به پیشرفت 12 ٪.
- مایه RFT اعمال شده برای برنامه ریزی وظایف ، تقویت صحت در شرایط با انعطاف پذیری بالا با 25 امتیاز.
- ساحلی از RFT برای اجرای سیاست های اعتدال محتوای ظریف و افزایش مدل F1 از 86 ٪ به 90 ٪ در تولید استفاده شده است.
- کله پاچهبا تامسون رویترز، و سایر شرکا همچنین سود عملکرد را در تولید داده های ساخت یافته ، کارهای مقایسه حقوقی و گردش کار تأیید نشان دادند.
این موارد اغلب ویژگی های مشترک: تعاریف کار روشن ، قالب های خروجی ساختاری و معیارهای ارزیابی قابل اعتماد-همه برای تنظیم دقیق تقویت کننده مؤثر ضروری است.
RFT هم اکنون برای سازمانهای تأیید شده در دسترس است. OpenAI 50 ٪ تخفیف را به تیم هایی ارائه می دهد که تصمیم می گیرند مجموعه داده های آموزشی خود را با OpenAI به اشتراک بگذارند تا به بهبود مدل های آینده کمک کند. توسعه دهندگان علاقه مند می توانند با استفاده از اسناد RFT و داشبورد OpenAi شروع به کار کنند.
قیمت گذاری و ساختار صورتحساب
برخلاف تنظیم دقیق نظارت یا ترجیح ، که در هر نشانه صورتحساب می شود ، RFT بر اساس زمان صرف شده برای آموزش فعال صورت می گیرد. به طور خاص:
- 100 دلار در ساعت زمان آموزش اصلی (زمان دیوارپوش در طول مدل های مدل ، درجه بندی ، به روزرسانی و اعتبار سنجی).
- زمان توسط دوم ، دور تا دو مکان اعشاری (بنابراین 1.8 ساعت آموزش برای مشتری 180 دلار هزینه خواهد داشت).
- هزینه ها فقط برای کار که مدل را اصلاح می کند اعمال می شود. صف ها ، بررسی های ایمنی و مراحل راه اندازی بیکار صورتحساب نیست.
- اگر کاربر از مدل های OpenAI به عنوان دانش آموزان استفاده کند (به عنوان مثال ، GPT-4.1) ، نشانه های استنباط مصرف شده در هنگام درجه بندی به طور جداگانه با نرخ API استاندارد OpenAi صورتحساب می شوند. در غیر این صورت ، این شرکت می تواند از مدلهای خارجی ، از جمله مدل های منبع باز ، به عنوان دانش آموزان استفاده کند.
در اینجا یک نمونه تجزیه و تحلیل هزینه وجود دارد:
سناریو | زمان قابل پرداخت | هزینه |
---|---|---|
آموزش 4 ساعته | 4 ساعت | 400 دلار |
1.75 ساعت (مطرح شده) | 1.75 ساعت | 175 دلار |
2 ساعت تمرین + 1 ساعت از دست رفته (به دلیل عدم موفقیت) | 2 ساعت | 200 دلار |
این مدل قیمت گذاری شفافیت و پاداش طراحی کارآمد را فراهم می کند. برای کنترل هزینه ها ، OpenAI تیم ها را به این موارد ترغیب می کند:
- در صورت امکان از کلاس های سبک یا کارآمد استفاده کنید.
- از اعتبار بیش از حد مکرر خودداری کنید مگر اینکه لازم باشد.
- برای کالیبراسیون انتظارات با مجموعه داده های کوچکتر یا اجرای کوتاه تر شروع کنید.
- نظارت بر آموزش با ابزارهای API یا داشبورد و مکث در صورت لزوم.
OpenAi از یک روش صورتحساب به نام “پیشرفت رو به جلو” استفاده می کند ، به این معنی که کاربران فقط برای مراحل آموزش مدل که با موفقیت تکمیل و حفظ شده اند ، صورتحساب می شوند.
بنابراین آیا سازمان شما باید در Rfting نسخه سفارشی O4-Mini Openai سرمایه گذاری کند یا خیر؟
تنظیم دقیق تقویت کننده یک روش بیان کننده تر و قابل کنترل تر برای تطبیق مدل های زبان در موارد استفاده در دنیای واقعی است.
RFT با پشتیبانی از خروجی های ساختاری ، کلاس های مبتنی بر کد و مدل و کنترل کامل API ، سطح جدیدی از سفارشی سازی را در استقرار مدل امکان پذیر می کند. روال Openai بر طراحی کار متفکرانه و ارزیابی قوی به عنوان کلیدهای موفقیت تأکید دارد.
توسعه دهندگان علاقه مند به کاوش در این روش می توانند از طریق داشبورد تنظیم دقیق OpenAi به اسناد و نمونه ها دسترسی پیدا کنند.
RFT برای سازمانهایی که دارای مشکلات کاملاً مشخص و پاسخهای قابل اثبات هستند ، روشی قانع کننده برای تراز کردن مدل ها با اهداف عملیاتی یا انطباق ارائه می دهد – بدون ایجاد زیرساخت های RL از ابتدا.
ارسال پاسخ