'insane': Openai تولید تصویر بومی GPT-4O را معرفی می کند و در حال حاضر کاربران آرزو می کنند
'insane': Openai تولید تصویر بومی GPT-4O را معرفی می کند و در حال حاضر کاربران آرزو می کنند

'insane': Openai تولید تصویر بومی GPT-4O را معرفی می کند و در حال حاضر کاربران آرزو می کنند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


ما از زمان انتشار OpenAi اولین مدل “Omni” یا Multimodal خود ، GPT-4O را در ماه مه 2024 منتشر کردیم ، اما این حالت آماده به کار هنوز هم ترفندهای آستین خود را منتشر کرده است.

مورد در نقطه ، امروز Openai سرانجام قابلیت های تولید تصویر چند حالته بومی GPT-4O را برای کاربران Hit Chatbot Chatgpt در سطح Plus ، Pro ، Team و Usage Free روشن کرد ، اگرچه این شرکت گفت که به زودی برای شرکت ، EDU و از طریق رابط برنامه نویسی برنامه (API) در دسترس خواهد بود.

بر خلاف مدل قبلی تصویر AI تولیدی موجود در Chatgpt-Openai's Dall-E 3 ، یک مدل ترانسفورماتور کلاسیک انتشار که برای بازسازی تصاویر از متن متن با حذف نویز از پیکسل ها آموزش داده شده است-این ژنراتور تصویر جدید بخشی از همان مدل است که متن و کد را تف می کند ، همانطور که OpenAi کل مدل را برای درک همه این اشکال رسانه ها یک بار آموزش می دهد.

گرگ بروکمن ، رئیس جمهور OpenAI ، مدتها پیش این توانایی بومی GPT-4O را در ماه مه 2024 پیش نمایش داده بود ، اما به دلایلی که هنوز هم به طور عمومی ناشناخته است ، این شرکت تا کنون بر روی آن نگه داشته شده است-پس از انتشار عمومی آنچه بسیاری از کاربران AI Power به عنوان ویژگی مشابهی از Google Ai Studio با Gemini 2 Model Experimental خود دیدند.

این امر باعث شده است که یک ژنراتور تصویر با کیفیت بسیار بالاتری که تصاویر بسیار طولانی تر و متن دقیق پخته شده را تولید می کند ، و کاربران را تحت تأثیر قرار می دهد – یکی از آنها کیفیت را “مجنون” می نامد.

با همان نشانه (هدف در نظر گرفته شده) ، Openai هنوز دقیقاً گفته است که قابلیت های تولید تصویر GPT-4O در مورد چه چیزی آموزش داده شده است-و با توجه به تاریخچه شرکت و سایر ارائه دهندگان مدل ، احتمالاً شامل بسیاری از آثار هنری است که از وب ساخته شده اند ، که برخی از آنها احتمالاً کپی رایت شده است ، که احتمالاً باعث عصبانیت هنرمندان در پشت آنها می شود.

آوردن نسل تصویر به چتپپ و سورا

OpenAi مدتهاست که قصد دارد تولید تصویر را به یک توانایی اصلی مدل های هوش مصنوعی خود تبدیل کند. با استفاده از GPT-4O ، کاربران اکنون می توانند تصاویر را مستقیماً در ChatGPT تولید کنند و از طریق مکالمه و تنظیم جزئیات در پرواز ، آنها را تصفیه کنند.

این مدل همچنین در پلت فرم نسل ویدیویی OpenAi ادغام می شود و قابلیت های چند مدلی را بیشتر می کند.

در اعلامیه X ، Openai تأیید کرد که تولید تصویر GPT-4O به گونه ای طراحی شده است:

  • متن را به طور دقیق در تصاویر ارائه دهید و امکان ایجاد علائم ، منوها ، دعوت ها و اینفوگرافیک ها را فراهم می کند.
  • با دقت و حفظ وفاداری بالایی حتی در ترکیبات دقیق ، پیگیری های پیچیده را دنبال کنید.
  • بر روی تصاویر و متن های قبلی ، اطمینان از سازگاری بصری در تعامل های متعدد.
  • از سبک های مختلف هنری ، از نوری گرایی گرفته تا تصاویر سبک شده پشتیبانی کنید.

کاربران می توانند یک تصویر را در ChatGPT توصیف کنند ، جزئیات مربوط به نسبت ابعاد ، طرح های رنگی (کدهای HEX) یا شفافیت را مشخص کنند و GPT-4O آن را ظرف یک دقیقه تولید می کند.

همانطور که مشاور مستقل هوش مصنوعی Allie K. Miller در X نوشت ، این یک “جهش عظیم در تولید متن” است و “بهترین” مدل تولید تصویر هوش مصنوعی است که وی دیده است.

قابلیت های کلیدی و موارد استفاده

GPT-4O به گونه ای طراحی شده است که تولید تصویر را نه تنها از نظر بصری خیره کننده بلکه عملی نیز ایجاد کند. برخی از برنامه های اصلی عبارتند از:

  • طراحی و برندسازی – تولید آرم ، پوستر و تبلیغات با قرار دادن دقیق متن.
  • آموزش و تجسم – ایجاد نمودارهای علمی ، اینفوگرافیک و تصاویر تاریخی برای یادگیری.
  • توسعه بازی – حفظ قوام شخصیت در تکرارهای مختلف طراحی.
  • بازاریابی و ایجاد محتوا – تولید دارایی های رسانه های اجتماعی ، دعوت های رویداد و تصاویر دیجیتالی متناسب با نیازهای برند.

چگونه GPT-4O تصاویر تولیدی را نسبت به دال بهبود می بخشد

با توجه به موضوع رسمی OpenAi در X ، GPT-4O چندین پیشرفت را نسبت به مدل های قبلی ارائه می دهد:

  • ادغام بهتر متن: بر خلاف مدل های هوش مصنوعی گذشته که با متن خوانا و مناسب روبرو بودند ، GPT-4O اکنون می تواند کلمات را با دقت در تصاویر جاسازی کند.
  • درک متنی پیشرفته: GPT-4O تاریخچه گپ را به دست می آورد و به کاربران این امکان را می دهد تا تصاویر را به صورت تعاملی اصلاح کنند و انسجام را در چندین نسل حفظ کنند.
  • اتصال چند هدف بهبود یافته: در حالی که مدلهای قبلی به درستی موقعیت یابی بسیاری از اشیاء مجزا در یک صحنه مشکل داشتند ، GPT-4O اکنون می تواند تا 10-20 اشیاء را به طور همزمان اداره کند.
  • اقتباس سبک همه کاره: این مدل می تواند تصاویر را به سبک های مختلفی تبدیل یا تبدیل کند ، از طرح های دستی تا نورپردازی با وضوح بالا.

محدودیت ها

با وجود پیشرفت های خود ، GPT-4O هنوز هم چالش های شناخته شده ای دارد:

  • مسائل مربوط به برداشت: تصاویر بزرگ ، مانند پوسترها ، گاهی اوقات ممکن است خیلی محکم خرد شوند.
  • دقت متن در اسکریپت های غیر لاتین: برخی از شخصیت های غیر انگلیسی ممکن است به درستی ارائه نشوند.
  • حفظ جزئیات در متن کوچک: متن بسیار دقیق یا کوچک ممکن است وضوح را از دست بدهد.
  • ویرایش دقت: اصلاح قسمت های خاص یک تصویر ممکن است سهواً بر سایر عناصر تأثیر بگذارد.

OpenAi به طور فعال از طریق اصلاح مدل های مداوم به این موضوعات پرداخته است.

اقدامات ایمنی و برچسب زدن

به عنوان بخشی از تعهد OpenAi به توسعه مسئولیت پذیری AI ، تمام تصاویر تولید شده توسط GPT-4 شامل ابرداده C2PA است که به کاربران امکان می دهد منشأ هوش مصنوعی خود را تأیید کنند.

علاوه بر این ، OpenAI یک ابزار جستجوی داخلی برای کمک به تشخیص تصاویر تولید شده AI ایجاد کرده است.

حفاظت های دقیق برای مسدود کردن محتوای مضر و جلوگیری از سوء استفاده ، مانند ممنوعیت تصاویر صریح ، فریبنده یا مضر وجود دارد.

Openai همچنین تضمین می کند که تصاویر دارای افراد واقعی در معرض محدودیت های افزایش یافته قرار می گیرند.

سام آلتمن ، مدیرعامل Openai ، این نسخه را “علامت جدید آب بالا برای آزادی خلاق” توصیف کرد و تأکید کرد که کاربران قادر خواهند بود طیف گسترده ای از تصاویر را ایجاد کنند ، با مشاهده OpenAI و رویکرد خود را بر اساس استفاده از دنیای واقعی مشاهده و پالایش می کند.

از آنجا که تصاویر تولید شده AI دقیق تر و در دسترس تر می شوند ، GPT-4O یک گام مهم در ساخت نسل متن به تصویر یک ابزار اصلی برای ارتباط ، خلاقیت و بهره وری است.