برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
آخرین مدل منبع باز AI Google Gemma 3 تنها خبر بزرگ شرکت تابعه الفبای امروز نیست.
نه ، در واقع ، ممکن است کانون توجه توسط Google's Gemini 2.0 Flash با تولید تصویر بومی به سرقت رفته باشد ، یک مدل آزمایشی جدید که به صورت رایگان برای کاربران استودیوی Google AI و توسعه دهندگان از طریق Gemini Gemini API در دسترس است.
این اولین بار است که یک شرکت بزرگ فناوری ایالات متحده تولید تصویر چند حالته را مستقیماً در یک مدل به مصرف کنندگان ارسال می کند. بیشتر ابزارهای تولید تصویر هوش مصنوعی دیگر مدل های انتشار (نمونه های خاص تصویر) به مدل های بزرگ زبان (LLMS) وصل شده اند ، و نیاز به کمی تفسیر بین دو مدل دارند تا تصویری را که کاربر در متن متن خواسته است ، بدست آورند.
در مقابل ، فلش Gemini 2.0 می تواند تصاویر را به صورت بومی در همان مدلی تولید کند که کاربر متن را به آن می پردازد ، از لحاظ تئوری امکان دقت بیشتر و قابلیت های بیشتر را فراهم می کند – و نشانه های اولیه این کاملاً صحیح است.
فلش Gemini 2.0 ، برای اولین بار در دسامبر 2024 رونمایی شد اما بدون اینکه قابلیت تولید تصویر بومی برای کاربران روشن شود ، ورودی ، استدلال و درک زبان طبیعی را برای تولید تصاویر در کنار متن ادغام می کند.
نسخه آزمایشی تازه موجود ، Gemini-2.0-Flash-Exp ، توسعه دهندگان را قادر می سازد تا تصاویر را ایجاد کنند ، تصاویر را از طریق مکالمه تصفیه کنند و بر اساس دانش جهانی ، تصاویر مفصلی تولید کنند.
چگونه فلش جمینی 2.0 تصاویر تولید شده توسط AI را تقویت می کند
در یک پست وبلاگ در حال توسعه دهنده که در اوایل امروز منتشر شده است ، Google چندین قابلیت اصلی از آن را برجسته می کند Gemini 2.0 Flash's تولید تصویر بومی:
• متن و داستان داستان: توسعه دهندگان می توانند از Gemini 2.0 Flash برای تولید داستانهای مصور ضمن حفظ قوام در شخصیت ها و تنظیمات استفاده کنند. این مدل همچنین به بازخورد پاسخ می دهد و به کاربران امکان می دهد داستان را تنظیم کنند یا سبک هنری را تغییر دهند.
• ویرایش تصویر مکالمه: هوش مصنوعی پشتیبانی می کند ویرایش چند نوبت، به این معنی که کاربران می توانند با ارائه دستورالعمل ها از طریق زبان طبیعی ، یک تصویر را به طور تکراری تصحیح کنند. این ویژگی همکاری در زمان واقعی و اکتشاف خلاق را امکان پذیر می کند.
• تولید تصویر مبتنی بر دانش جهانی: بر خلاف بسیاری دیگر از مدل های تولید تصویر ، Gemini 2.0 Flash قابلیت های استدلال گسترده تری را برای تولید تصاویر متناسب تر متناسب تر می کند. به عنوان مثال ، می تواند دستور العمل هایی را با تصاویر دقیق نشان دهد که با مواد موجود در دنیای واقعی و روش های پخت و پز مطابقت دارد.
• ارائه متن بهبود یافته: بسیاری از مدل های تصویر هوش مصنوعی برای تولید دقیق متن خوانا در تصاویر تلاش می کنند ، اغلب اشتباهات غلط یا شخصیت های تحریف شده را تولید می کنند. Google گزارش می دهد که Flash Gemini 2.0 از رقبای پیشرو بهتر است در ارائه متن ، آن را به ویژه برای تبلیغات ، پست های رسانه های اجتماعی و دعوت نامه ها مفید می کند.
نمونه های اولیه پتانسیل و وعده باورنکردنی را نشان می دهد
Googlers و برخی از کاربران برق AI به X برای به اشتراک گذاشتن نمونه هایی از تولید تصویر جدید و قابلیت های ویرایش ارائه شده از طریق Gemini 2.0 Flash Experimental ، و بدون شک آنها چشمگیر بودند.
رابرت ریچی ، محقق Google DeepMind ، نشان داد که چگونه این مدل می تواند تصاویر را به سبک پیکسل تولید کند و سپس بر اساس مطالب متن ، موارد جدیدی را به همان سبک ایجاد کند.

AI News Account TestingCatalog News در مورد قابلیت های چند مدلی Gemini 2.0 Flash Experimental Experimental گزارش شده است و خاطرنشان می کند که Google اولین آزمایشگاه اصلی برای استقرار این ویژگی است.

کاربر angaisb_ aka “فرشته” در یک مثال قانع کننده نشان داد که چگونه سریع “اضافه کردن شکلات شکلاتی” یک تصویر موجود از کروسانت ها را در ثانیه اصلاح کرد – آشکار کردن قابلیت ویرایش سریع و دقیق تصویر Gemini 2.0 از طریق چت کردن به عقب و عقب با مدل.

YouTuber از لحاظ نظری رسانه ها خاطرنشان كردند كه این ویرایش تصویر افزایشی بدون بازسازی كامل چیزی است كه صنعت هوش مصنوعی مدتها پیش بینی كرده است ، نشان می دهد كه چگونه می توان از فلش Gemini 2.0 برای ویرایش تصویری برای بلند کردن بازوی شخصیت در عین حفظ كل بقیه تصویر استفاده كرد.

Googler سابق AI YouTuber Bilawal Sidhu نشان داد که چگونه این مدل تصاویر سیاه و سفید را رنگ آمیزی می کند ، و به ترمیم بالقوه تاریخی یا برنامه های پیشرفته خلاق اشاره می کند.

این واکنشهای اولیه نشان می دهد که توسعه دهندگان و علاقه مندان به هوش مصنوعی ، فلش جمینی 2.0 را به عنوان ابزاری بسیار انعطاف پذیر برای طراحی تکراری ، داستان پردازی خلاق و ویرایش بصری با کمک هوش مصنوعی می دانند.
این سوئیفت همچنین با GPT-4O OpenAi در تضاد است ، که در ماه مه سال 2024-تقریباً یک سال پیش-پیش بینی می کند که این ویژگی را به صورت عمومی منتشر کرده است-به Google اجازه داده است تا فرصتی برای رهبری در استقرار هوش مصنوعی چندمدی را بدست آورد.
همانطور که کاربر @chatgpt21 با نام “کریس” در X خاطرنشان کرد ، Openai در این مورد “Los
آزمایشات شخصی من محدودیت هایی را با اندازه نسبت ابعاد نشان داد – به نظر می رسید که با وجود درخواست در متن برای اصلاح آن ، برای من 1: 1 گیر کرده است – اما توانست در عرض چند ثانیه جهت شخصیت ها را در یک تصویر تغییر دهد.

در حالی که بیشتر بحث های اولیه پیرامون تولید تصویر بومی Gemini 2.0 Flash بر روی کاربران انفرادی و برنامه های خلاقانه متمرکز شده است ، پیامدهای آن برای تیم های سازمانی ، توسعه دهندگان و معماران نرم افزاری قابل توجه است.
طراحی و بازاریابی دارای هوش مصنوعی در مقیاس: برای تیم های بازاریابی و سازندگان محتوا ، Flash Gemini 2.0 می تواند به عنوان یک جایگزین مقرون به صرفه برای گردش کار طراحی گرافیک سنتی ، خودکار سازی ایجاد محتوای مارک دار ، تبلیغات و تصاویر رسانه های اجتماعی باشد. از آنجا که از ارائه متن در تصاویر پشتیبانی می کند ، می تواند ایجاد تبلیغ ، طراحی بسته بندی و گرافیک های تبلیغاتی را ساده تر کند و اعتماد به ویرایش دستی را کاهش دهد.
ابزارهای پیشرفته توسعه دهنده و گردش کار هوش مصنوعی: برای CTO ، CIO و مهندسان نرم افزار ، تولید تصویر بومی می تواند ادغام AI را در برنامه ها و خدمات ساده کند. فلش Gemini 2.0 با ترکیب خروجی های متن و تصویر در یک مدل واحد ، به توسعه دهندگان اجازه می دهد تا بسازند:
- دستیاران طراحی با قدرت AI که تولید UI/UX یا دارایی های برنامه را تولید می کنند.
- ابزارهای اسناد خودکار که مفاهیم را در زمان واقعی نشان می دهد.
- سیستم عامل های داستان پردازی پویا ، AI برای رسانه و آموزش.
از آنجا که این مدل همچنین از ویرایش تصویر مکالمه پشتیبانی می کند ، تیم ها می توانند رابط های مبتنی بر AI را ایجاد کنند که در آن کاربران طرح ها را از طریق گفتگوی طبیعی تصحیح می کنند و مانع ورود برای کاربران غیر فنی را کاهش می دهند.
امکانات جدید برای نرم افزار بهره وری AI محور: برای تیم های سازمانی که ابزارهای بهره وری با قدرت AI را می سازند ، فلش جمینی 2.0 می تواند از برنامه هایی مانند:
- نسل ارائه خودکار با اسلایدها و تصاویر ایجاد شده توسط AI.
- حاشیه نویسی اسناد حقوقی و تجاری با اینفوگرافیک های تولید شده AI.
- تجسم تجارت الکترونیکی ، تولید پویا تولید محصول بر اساس توضیحات.
نحوه استقرار و آزمایش با این توانایی
توسعه دهندگان می توانند با استفاده از API Gemini ، قابلیت تولید تصویر Gemini 2.0 Flash را شروع کنند. Google یک درخواست API نمونه برای نشان دادن چگونگی توسعه دهندگان می تواند داستانهای مصور را با متن و تصاویر در یک پاسخ واحد تولید کند:
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3D digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=("Text", "Image")
),
)
Flash Gemini 2.0 با ساده کردن تولید تصویر با قدرت AI ، توسعه دهندگان روش های جدیدی را برای ایجاد محتوای مصور ، طراحی برنامه های با کمک AI و آزمایش با داستان های بصری ارائه می دهد.
ارسال پاسخ