OpenAi مدلهای O3 و O4-Mini را راه اندازی می کند که "با تصاویر فکر می کنند" و از ابزارهایی به طور خودمختار استفاده می کنند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

OpenAi امروز دو مدل هوش مصنوعی پیشگامانه را راه اندازی کرد که می تواند با تصاویر استدلال کند و از ابزارهایی به طور مستقل استفاده کند ، و آنچه را که متخصصان آن را تغییر گامی در قابلیت های هوش مصنوعی می نامند ، نشان می دهد.

این شرکت مستقر در سانفرانسیسکو O3 و O4-Mini را معرفی کرد ، آخرین مورد در “سری O” مدل های استدلال ، که ادعا می کند باهوش ترین و توانا ترین مدل های آن تا به امروز است. این سیستم ها می توانند تصاویر را مستقیماً در فرآیند استدلال خود ادغام کنند ، وب را جستجو کنند ، کد را اجرا کنند ، پرونده ها را تجزیه و تحلیل کنند و حتی تصاویر را در یک جریان کار واحد تولید کنند.

گرگ بروکمن ، رئیس جمهور اوپای ، در طی یک کنفرانس مطبوعاتی با اعلام این نسخه گفت: “برخی از مدل ها وجود دارد که مانند یک قدم کیفی به آینده احساس می کنند. GPT-4 یکی از این موارد بود. امروز نیز یکی از آن روزها خواهد بود.” “این اولین مدلهایی هستند که دانشمندان برتر به ما می گویند که ایده های جدید و خوب و خوبی را تولید می کنند.”

https://www.youtube.com/watch؟v=sq8gbpub3rk

چگونه مدل های جدید Openai با تصاویر فکر می کنند تا حل مسئله بصری را تغییر دهند

بارزترین ویژگی این مدل های جدید توانایی آنها در “فکر کردن با تصاویر” است-نه فقط آنها را ببینید ، بلکه دستکاری و استدلال در مورد آنها به عنوان بخشی از روند حل مسئله آنها است.

اوپای در بیانیه ای که به VentureBeat ارسال شده است گفت: “آنها فقط تصویری را نمی بینند – آنها با آن فکر می کنند.” “این کلاس جدیدی از حل مسئله را باز می کند که استدلال بصری و متنی را در هم می آمیزد.”

در طی تظاهرات در کنفرانس مطبوعاتی ، یک محقق نشان داد که چگونه O3 می تواند یک پوستر فیزیک را از یک کارآموزی چند ساله تجزیه و تحلیل کند ، به طور مستقل از نمودارهای پیچیده خود حرکت کند و حتی مشخص کند که نتیجه نهایی در خود پوستر وجود ندارد.

براندون مک کنزی ، یک محقق در OpenAI که در زمینه استدلال چند مدلی کار می کند ، گفت: “این فقط باید خوانده شده باشد ، می دانید ، حداقل مانند 10 مقاله مختلف در چند ثانیه برای من.” وی تخمین زده است كه این كار او را “روزهای زیادی برای من انجام داده است ، حتی می خواهم ، حتی به خودم بپردازم ، به پروژه من برگردم ، و پس از آن چند روز احتمالاً ، در واقع از طریق ادبیات جستجو می كنم.”

توانایی هوش مصنوعی برای دستکاری تصاویر در فرآیند استدلال خود – بزرگنمایی جزئیات ، نمودارهای چرخان یا کشت عناصر غیر ضروری – یک رویکرد جدید را نشان می دهد که تحلیلگران صنعت می گویند می تواند زمینه های تحقیقات علمی تا آموزش را متحول کند.

من دسترسی زودهنگام داشتم ، O3 یک مدل چشمگیر است ، به نظر می رسد بسیار توانا است. چند نمونه جالب:
1) یک مورد تجاری را که در کلاس خود استفاده می کنم ، ترک کردم
2) ایجاد برخی از SVG (تصاویر ایجاد شده توسط کد به تنهایی)
3) نوشتن یک داستان محدود از دو Gyres در هم تنیده
4) نبرد فضایی علمی تخیلی سخت. pic.twitter.com/tk4pkvknot
– اتان مولیک (EMOLLICK) 16 آوریل 2025

مدیران OpenAi تأکید کردند که این نسخه ها بیش از مدل های بهبود یافته را نشان می دهند – آنها سیستم های هوش مصنوعی کامل هستند که می توانند به طور مستقل از ابزارهای مختلف هنگام حل مشکلات استفاده و زنجیر کنند.

این شرکت در انتشار خود توضیح داد: “ما آنها را آموزش داده ایم تا از ابزارهایی از طریق یادگیری تقویت استفاده کنند.

گرگ بروکمن از قابلیت های استفاده از ابزار گسترده مدل ها برجسته کرد: “آنها در واقع از این ابزارها در زنجیره فکری خود استفاده می کنند ، زیرا در تلاش برای حل یک مشکل سخت هستند. به عنوان مثال ، ما دیده ایم که O3 مانند 600 تماس ابزار در یک ردیف در تلاش برای حل یک کار واقعاً سخت است.”

این توانایی به مدلها اجازه می دهد تا گردش کار پیچیده و چند مرحله ای را بدون جهت ثابت انسان انجام دهند. به عنوان مثال ، اگر در مورد الگوهای استفاده از انرژی آینده در کالیفرنیا سؤال شود ، هوش مصنوعی می تواند وب را برای داده های ابزار جستجو کند ، کد پایتون را برای تجزیه و تحلیل آن ، تولید تجسم و تهیه یک گزارش جامع – همه به عنوان یک فرآیند سیال واحد بنویسد.

Openai پیش از رقبا با عملکرد رکورددار در معیارهای کلید هوش مصنوعی پیش می رود

ادعاهای OpenAi O3 معیارهای جدید و جدید را در مورد اقدامات کلیدی قابلیت AI ، از جمله CodeForces ، SWE-BENCH و MMMU تنظیم می کند. در ارزیابی های کارشناسان خارجی ، طبق گزارش ها ، O3 20 درصد کمتر از خطای اصلی نسبت به سلف خود را در کارهای دشوار و واقعی در دنیای واقعی انجام می دهد.

مدل O4-Mini کوچکتر ضمن حفظ قابلیت های استدلال قوی ، برای سرعت و راندمان هزینه بهینه می شود. در مسابقه ریاضیات AIME 2025 ، O4-Mini در صورت دسترسی به یک مترجم پایتون ، 99.5 درصد به دست آورد.

مارک چن ، رئیس تحقیقات اوپای ، در کنفرانس مطبوعاتی گفت: “من واقعاً معتقدم که با این مجموعه مدل ها ، O3 و O4-Mini ، ما می خواهیم پیشرفت های بیشتری را ببینیم.”

زمان این نسخه قابل توجه است ، فقط دو روز پس از رونمایی از OpenAI از مدل GPT-4.1 خود ، که در کارهای برنامه نویسی برتری دارد. جانشینی سریع اعلامیه ها نشانگر شتاب در چشم انداز رقابتی AI است ، جایی که Openai با فشار بیشتری از مدلهای جمینی گوگل ، کلود انسان شناسی و الون مسک XAI روبرو می شود.

ماه گذشته ، Openai آنچه را که به بزرگترین دور بودجه فناوری خصوصی در تاریخ است ، بسته و 40 میلیارد دلار با ارزش 300 میلیارد دلار افزایش داد. بنا بر گزارش ها ، این شرکت همچنین در نظر دارد شبکه اجتماعی خود را بسازد ، به طور بالقوه برای رقابت با پلت فرم X Elon Musk و تأمین منبع اختصاصی داده های آموزشی.

O3 و O4-Mini در برنامه نویسی بسیار خوب هستند ، بنابراین ما یک محصول جدید به نام Codex CLI را منتشر می کنیم تا استفاده از آنها آسانتر شود.
این یک عامل برنامه نویسی است که روی رایانه شما اجرا می شود. این منبع کاملاً باز است و امروز در دسترس است. ما انتظار داریم که به سرعت بهبود یابد.
– سام آلتمن (sama) 16 آوریل 2025

چگونه مدل های جدید Openai مهندسی نرم افزار را با توانایی های ناوبری کد بی سابقه تبدیل می کند

یکی از زمینه هایی که مدل های جدید به ویژه برتری دارند ، مهندسی نرم افزار است. بروکمن در کنفرانس مطبوعاتی خاطرنشان کرد که O3 “در واقع بهتر از من است که از طریق پایگاه کد OpenAI ما حرکت می کنم ، که واقعاً مفید است.”

به عنوان بخشی از این اعلامیه ، OpenAI همچنین Codex CLI ، یک عامل برنامه نویسی سبک را معرفی کرد که مستقیماً در ترمینال کاربر اجرا می شود. ابزار منبع باز به توسعه دهندگان این امکان را می دهد تا با پشتیبانی از تصاویر و طرح ها ، از قابلیت های استدلال مدل ها برای انجام وظایف کدگذاری استفاده کنند.

این شرکت اعلام کرد: “ما همچنین یک آزمایش جدید را به اشتراک می گذاریم: Codex CLI ، یک عامل برنامه نویسی سبک که می توانید از ترمینال خود اجرا کنید.” “شما می توانید با عبور از تصاویر یا طرح های وفاداری کم به مدل ، همراه با دسترسی به کد خود به صورت محلی ، مزایای استدلال چند حالته را از خط فرمان دریافت کنید.”

برای تشویق فرزندخواندگی ، OpenAI در حال آغاز یک میلیون دلار ابتکار عمل برای پشتیبانی از پروژه ها با استفاده از مدل های Codex CLI و OpenAI است که کمک های مالی در افزایش 25000 دلار در اعتبار API در دسترس است.

در پروتکل های ایمنی پیشرفته Openai: چگونه شرکت در برابر سوء استفاده از هوش مصنوعی محافظت می کند

گزارش های OpenAi با آزمایش ایمنی گسترده در مورد مدل های جدید ، به ویژه بر توانایی آنها در امتناع از درخواست های مضر متمرکز شده است. اقدامات ایمنی این شرکت شامل بازسازی کامل داده های آموزش ایمنی آنها و توسعه کاهش سطح سیستم برای پرچم های خطرناک است.

این شرکت اظهار داشت: “ما هر دو مدل را با دقیق ترین برنامه ایمنی خود آزمایش کردیم.”

در طول کنفرانس مطبوعاتی ، محققان OpenAi وندا و آنانیا نتایج معیار مفصلی را ارائه دادند و خاطرنشان کردند که مدل های جدید بیش از 10 برابر محاسبه آموزش نسخه های قبلی برای دستیابی به توانایی های خود را پشت سر گذاشته اند.

چه موقع و چگونه می توانید به O3 و O4-Mini دسترسی پیدا کنید: جدول زمانی استقرار و استراتژی تجاری

مدل های جدید بلافاصله در دسترس کاربران Chatgpt Plus ، Pro و Team هستند که مشتریان شرکت و آموزش و پرورش هفته آینده به آنها دسترسی پیدا می کنند. کاربران رایگان می توانند با انتخاب “فکر” در آهنگساز قبل از ارسال نمایش داده ها ، O4-Mini را نمونه برداری کنند.

توسعه دهندگان می توانند از طریق API تکمیل چت OpenAI و API پاسخ به هر دو مدل دسترسی پیدا کنند ، اگرچه برخی از سازمان ها برای دسترسی به آنها به تأیید نیاز دارند.

این نسخه یک فرصت تجاری قابل توجه برای OpenAI را نشان می دهد ، زیرا مدل ها هم از نظر توانایی و هم مقرون به صرفه تر از پیشینیان خود به نظر می رسند. این شرکت اظهار داشت: “به عنوان مثال ، در رقابت های ریاضی AIME در سال 2025 ، مرزهای عملکردی برای O3 به شدت بیش از O1 بهبود می یابد ، و به همین ترتیب ، مرز O4-Mini به شدت بیش از O3-Mini بهبود می یابد.”

آینده هوش مصنوعی: چگونه Openai در حال استدلال و مکالمه برای سیستم های نسل بعدی است

تحلیلگران صنعت این نسخه ها را به عنوان بخشی از همگرایی گسترده تر در قابلیت های هوش مصنوعی مشاهده می کنند ، و مدل ها به طور فزاینده ای استدلال تخصصی را با توانایی های مکالمه طبیعی و استفاده از ابزار ترکیب می کنند.

OpenAi در انتشار خود خاطرنشان کرد: “به روزرسانی های امروز نشان دهنده مسیری است که مدل های ما در آن قرار دارند: ما در حال همگرا بودن قابلیت های استدلال تخصصی سری O با بیشتر توانایی های مکالمه طبیعی و استفاده از ابزار از سری GPT هستیم.”

اتان مولیک ، استادیار دانشکده وارتون که در حال پذیرش AI است ، O3 را “الگویی بسیار قوی ، اما هنوز هم یک مبهم” در یک پست رسانه های اجتماعی پس از این اعلامیه توصیف کرد.

از آنجا که رقابت در فضای هوش مصنوعی همچنان شدت می یابد ، با Google ، Anthropic و دیگران که مدلهای فزاینده ای را آزاد می کنند ، تمرکز دوگانه Openai بر روی قابلیت های استدلال و استفاده از ابزار عملی ، یک استراتژی را با هدف حفظ موقعیت رهبری خود با ارائه اطلاعات و ابزار نشان می دهد.

با استفاده از O3 و O4-Mini ، Openai از آستانه ای عبور کرده است که ماشین ها شروع به درک تصاویر از نحوه انجام انسان می کنند-مدیریت اطلاعات بصری به عنوان بخشی جدایی ناپذیر از روند تفکر خود و نه صرفاً تجزیه و تحلیل آنچه می بینند. این تغییر از شناخت منفعل به استدلال بصری فعال ممکن است در نهایت مهمتر از هر نمره معیار باشد ، نشان دهنده لحظه ای است که AI شروع به دیدن واقعاً جهان از طریق چشمان تفکر می کند.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد