Google's Multimodal AI Image Google در Gemini 2.0 Flash با ویرایش های سریع ، نقل و انتقالات سبک

سوگل سیدصالحی اسفند 23, 1403

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

آخرین مدل منبع باز AI Google Gemma 3 تنها خبر بزرگ شرکت تابعه الفبای امروز نیست.

نه ، در واقع ، ممکن است کانون توجه توسط Google's Gemini 2.0 Flash با تولید تصویر بومی به سرقت رفته باشد ، یک مدل آزمایشی جدید که به صورت رایگان برای کاربران استودیوی Google AI و توسعه دهندگان از طریق Gemini Gemini API در دسترس است.

این اولین بار است که یک شرکت بزرگ فناوری ایالات متحده تولید تصویر چند حالته را مستقیماً در یک مدل به مصرف کنندگان ارسال می کند. بیشتر ابزارهای تولید تصویر هوش مصنوعی دیگر مدل های انتشار (نمونه های خاص تصویر) به مدل های بزرگ زبان (LLMS) وصل شده اند ، و نیاز به کمی تفسیر بین دو مدل دارند تا تصویری را که کاربر در متن متن خواسته است ، بدست آورند.

در مقابل ، فلش Gemini 2.0 می تواند تصاویر را به صورت بومی در همان مدلی تولید کند که کاربر متن را به آن می پردازد ، از لحاظ تئوری امکان دقت بیشتر و قابلیت های بیشتر را فراهم می کند – و نشانه های اولیه این کاملاً صحیح است.

فلش Gemini 2.0 ، برای اولین بار در دسامبر 2024 رونمایی شد اما بدون اینکه قابلیت تولید تصویر بومی برای کاربران روشن شود ، ورودی ، استدلال و درک زبان طبیعی را برای تولید تصاویر در کنار متن ادغام می کند.

نسخه آزمایشی تازه موجود ، Gemini-2.0-Flash-Exp ، توسعه دهندگان را قادر می سازد تا تصاویر را ایجاد کنند ، تصاویر را از طریق مکالمه تصفیه کنند و بر اساس دانش جهانی ، تصاویر مفصلی تولید کنند.

چگونه فلش جمینی 2.0 تصاویر تولید شده توسط AI را تقویت می کند

در یک پست وبلاگ در حال توسعه دهنده که در اوایل امروز منتشر شده است ، Google چندین قابلیت اصلی از آن را برجسته می کند Gemini 2.0 Flash's تولید تصویر بومی:

• متن و داستان داستان: توسعه دهندگان می توانند از Gemini 2.0 Flash برای تولید داستانهای مصور ضمن حفظ قوام در شخصیت ها و تنظیمات استفاده کنند. این مدل همچنین به بازخورد پاسخ می دهد و به کاربران امکان می دهد داستان را تنظیم کنند یا سبک هنری را تغییر دهند.

• ویرایش تصویر مکالمه: هوش مصنوعی پشتیبانی می کند ویرایش چند نوبت، به این معنی که کاربران می توانند با ارائه دستورالعمل ها از طریق زبان طبیعی ، یک تصویر را به طور تکراری تصحیح کنند. این ویژگی همکاری در زمان واقعی و اکتشاف خلاق را امکان پذیر می کند.

• تولید تصویر مبتنی بر دانش جهانی: بر خلاف بسیاری دیگر از مدل های تولید تصویر ، Gemini 2.0 Flash قابلیت های استدلال گسترده تری را برای تولید تصاویر متناسب تر متناسب تر می کند. به عنوان مثال ، می تواند دستور العمل هایی را با تصاویر دقیق نشان دهد که با مواد موجود در دنیای واقعی و روش های پخت و پز مطابقت دارد.

• ارائه متن بهبود یافته: بسیاری از مدل های تصویر هوش مصنوعی برای تولید دقیق متن خوانا در تصاویر تلاش می کنند ، اغلب اشتباهات غلط یا شخصیت های تحریف شده را تولید می کنند. Google گزارش می دهد که Flash Gemini 2.0 از رقبای پیشرو بهتر است در ارائه متن ، آن را به ویژه برای تبلیغات ، پست های رسانه های اجتماعی و دعوت نامه ها مفید می کند.

نمونه های اولیه پتانسیل و وعده باورنکردنی را نشان می دهد

Googlers و برخی از کاربران برق AI به X برای به اشتراک گذاشتن نمونه هایی از تولید تصویر جدید و قابلیت های ویرایش ارائه شده از طریق Gemini 2.0 Flash Experimental ، و بدون شک آنها چشمگیر بودند.

رابرت ریچی ، محقق Google DeepMind ، نشان داد که چگونه این مدل می تواند تصاویر را به سبک پیکسل تولید کند و سپس بر اساس مطالب متن ، موارد جدیدی را به همان سبک ایجاد کند.

AI News Account TestingCatalog News در مورد قابلیت های چند مدلی Gemini 2.0 Flash Experimental Experimental گزارش شده است و خاطرنشان می کند که Google اولین آزمایشگاه اصلی برای استقرار این ویژگی است.

کاربر angaisb_ aka “فرشته” در یک مثال قانع کننده نشان داد که چگونه سریع “اضافه کردن شکلات شکلاتی” یک تصویر موجود از کروسانت ها را در ثانیه اصلاح کرد – آشکار کردن قابلیت ویرایش سریع و دقیق تصویر Gemini 2.0 از طریق چت کردن به عقب و عقب با مدل.

YouTuber از لحاظ نظری رسانه ها خاطرنشان كردند كه این ویرایش تصویر افزایشی بدون بازسازی كامل چیزی است كه صنعت هوش مصنوعی مدتها پیش بینی كرده است ، نشان می دهد كه چگونه می توان از فلش Gemini 2.0 برای ویرایش تصویری برای بلند کردن بازوی شخصیت در عین حفظ كل بقیه تصویر استفاده كرد.

Googler سابق AI YouTuber Bilawal Sidhu نشان داد که چگونه این مدل تصاویر سیاه و سفید را رنگ آمیزی می کند ، و به ترمیم بالقوه تاریخی یا برنامه های پیشرفته خلاق اشاره می کند.

این واکنشهای اولیه نشان می دهد که توسعه دهندگان و علاقه مندان به هوش مصنوعی ، فلش جمینی 2.0 را به عنوان ابزاری بسیار انعطاف پذیر برای طراحی تکراری ، داستان پردازی خلاق و ویرایش بصری با کمک هوش مصنوعی می دانند.

این سوئیفت همچنین با GPT-4O OpenAi در تضاد است ، که در ماه مه سال 2024-تقریباً یک سال پیش-پیش بینی می کند که این ویژگی را به صورت عمومی منتشر کرده است-به Google اجازه داده است تا فرصتی برای رهبری در استقرار هوش مصنوعی چندمدی را بدست آورد.

همانطور که کاربر @chatgpt21 با نام “کریس” در X خاطرنشان کرد ، Openai در این مورد “Los

آزمایشات شخصی من محدودیت هایی را با اندازه نسبت ابعاد نشان داد – به نظر می رسید که با وجود درخواست در متن برای اصلاح آن ، برای من 1: 1 گیر کرده است – اما توانست در عرض چند ثانیه جهت شخصیت ها را در یک تصویر تغییر دهد.

در حالی که بیشتر بحث های اولیه پیرامون تولید تصویر بومی Gemini 2.0 Flash بر روی کاربران انفرادی و برنامه های خلاقانه متمرکز شده است ، پیامدهای آن برای تیم های سازمانی ، توسعه دهندگان و معماران نرم افزاری قابل توجه است.

طراحی و بازاریابی دارای هوش مصنوعی در مقیاس: برای تیم های بازاریابی و سازندگان محتوا ، Flash Gemini 2.0 می تواند به عنوان یک جایگزین مقرون به صرفه برای گردش کار طراحی گرافیک سنتی ، خودکار سازی ایجاد محتوای مارک دار ، تبلیغات و تصاویر رسانه های اجتماعی باشد. از آنجا که از ارائه متن در تصاویر پشتیبانی می کند ، می تواند ایجاد تبلیغ ، طراحی بسته بندی و گرافیک های تبلیغاتی را ساده تر کند و اعتماد به ویرایش دستی را کاهش دهد.

ابزارهای پیشرفته توسعه دهنده و گردش کار هوش مصنوعی: برای CTO ، CIO و مهندسان نرم افزار ، تولید تصویر بومی می تواند ادغام AI را در برنامه ها و خدمات ساده کند. فلش Gemini 2.0 با ترکیب خروجی های متن و تصویر در یک مدل واحد ، به توسعه دهندگان اجازه می دهد تا بسازند:

دستیاران طراحی با قدرت AI که تولید UI/UX یا دارایی های برنامه را تولید می کنند.
ابزارهای اسناد خودکار که مفاهیم را در زمان واقعی نشان می دهد.
سیستم عامل های داستان پردازی پویا ، AI برای رسانه و آموزش.

از آنجا که این مدل همچنین از ویرایش تصویر مکالمه پشتیبانی می کند ، تیم ها می توانند رابط های مبتنی بر AI را ایجاد کنند که در آن کاربران طرح ها را از طریق گفتگوی طبیعی تصحیح می کنند و مانع ورود برای کاربران غیر فنی را کاهش می دهند.

امکانات جدید برای نرم افزار بهره وری AI محور: برای تیم های سازمانی که ابزارهای بهره وری با قدرت AI را می سازند ، فلش جمینی 2.0 می تواند از برنامه هایی مانند:

نسل ارائه خودکار با اسلایدها و تصاویر ایجاد شده توسط AI.
حاشیه نویسی اسناد حقوقی و تجاری با اینفوگرافیک های تولید شده AI.
تجسم تجارت الکترونیکی ، تولید پویا تولید محصول بر اساس توضیحات.

نحوه استقرار و آزمایش با این توانایی

توسعه دهندگان می توانند با استفاده از API Gemini ، قابلیت تولید تصویر Gemini 2.0 Flash را شروع کنند. Google یک درخواست API نمونه برای نشان دادن چگونگی توسعه دهندگان می تواند داستانهای مصور را با متن و تصاویر در یک پاسخ واحد تولید کند:

from google import genai  
from google.genai import types  

client = genai.Client(api_key="GEMINI_API_KEY")  

response = client.models.generate_content(  
    model="gemini-2.0-flash-exp",  
    contents=(  
        "Generate a story about a cute baby turtle in a 3D digital art style. "  
        "For each scene, generate an image."  
    ),  
    config=types.GenerateContentConfig(  
        response_modalities=("Text", "Image")  
    ),  
)

Flash Gemini 2.0 با ساده کردن تولید تصویر با قدرت AI ، توسعه دهندگان روش های جدیدی را برای ایجاد محتوای مصور ، طراحی برنامه های با کمک AI و آزمایش با داستان های بصری ارائه می دهد.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد

سوگل سیدصالحی اسفند 23, 1403

Google's Multimodal AI Image Google در Gemini 2.0 Flash با ویرایش های سریع ، نقل و انتقالات سبک

چگونه فلش جمینی 2.0 تصاویر تولید شده توسط AI را تقویت می کند

نمونه های اولیه پتانسیل و وعده باورنکردنی را نشان می دهد

نحوه استقرار و آزمایش با این توانایی

با CAPACABRA ملاقات کنید! اسرار موجودات مومیایی شده “عجیب” با دستهای مانند انسان که توسط دانشمندان مورد بررسی قرار می گیرد

دولت انگلستان برای راه اندازی ابزار هوش مصنوعی برای سرعت بخشیدن به مشاوره های عمومی | هوش مصنوعی (AI)

تماشا می شود؟ هشدار در مورد AirPods به عنوان متخصصان فاش می کنند رئیس شما می تواند حرکات شما را ردیابی کند

Tab Lenovo Legion Gen 3 سریع و پررنگ بیشتر و مقرون به صرفه تر می شود

شما از دئودورانت اشتباه استفاده می کنید! کارشناسان اشتباه رایج “کاهش اثربخشی” را نشان می دهند – و چرا هرگز نباید در طول روز دوباره استفاده کنید

سرانجام گوگل تأیید می کند که چه زمانی می توانیم انتظار داشته باشیم Android 16 از بین برود

هیچ چیز مدیرعامل کارل پی به قیمت گذاری هیچ چیز اشاره نمی کند (3) ؛ راه اندازی در تابستان 2025

سامسونگ از نازکترین مدل تا کنون با دستگاه Galaxy S25 با ضخامت 5.8 میلی متر رونمایی می کند – اما یک صید وجود دارد

اپل از ویژگی های جدید آیفون ، آی پد ، دسترسی به MAC برای iOS 19 خبر داد

رده بندی قدرت AI افزایش یافته: OpenAi ، Google Rise به عنوان Falls Anthropic ، Poe Report نشان می دهد

دلیل وحشتناک دلیل واقعی کنترل ترافیک هوایی که اتفاق می افتد ، که توسط Whistleblower فاش شده است … (این باعث می شود شما هرگز بخواهید دیگر پرواز نکنید)

Google Android 16 Beta 4.1 را برای از بین بردن چندین اشکال منتشر کرد

چه ابزارهای SOC در ساعت 2:13 صبح از دست می دهند: چگونه Gen AI حمله از Telemetry را مورد سوء استفاده قرار می دهد- قسمت 2

کشف بمب در “سایت کشتی نوح” که محققان می گویند می تواند داستان کتاب مقدس را درست اثبات کند

T-Mobile به صورت رایگان سامسونگ Galaxy S25 Edge را ارائه می دهد (تجارت مورد نیاز)

شرط بندی های بزرگ در LLM های یکپارچه ، GPT-4.1 و Claude 3.7 را به پلتفرم اضافه می کند

دانشمندان فلزات سمی مرتبط با اوتیسم را در خمیردندان محبوب پیدا می کنند

آخرین تلفن دوستانه با بودجه Verizon ارزش زیادی را برای پول ارائه می دهد

Skydance به قطار تأخیر می پیوندد و به مارول 1943 فشار می آورد: افزایش هیدرا به سال 2026

پرونده های شوک آور UFO که در کتابخانه ریاست جمهوری پنهان شده است ادعا می کنند ما با یک مسابقه بیگانه ارتباط برقرار کردیم