Midjourney V7 با استفاده از صدا و حالت پیش نویس سریعتر راه اندازی می شود - چرا بررسی های مختلط می شود؟

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

Midjourney ، استارتاپی که توسط بسیاری از کاربران AI Power به عنوان “استاندارد طلا” تولید تصویر هوش مصنوعی از زمان راه اندازی آن در سال 2022 مشاهده شده است ، اکنون نسخه بسیار پیش بینی شده و پیشرفته ترین مدل ژنراتور خود ، Midjourney V7 را معرفی کرده است.

ویژگی اصلی یک روش جدید برای فوریت مدل برای ایجاد تصاویر است.

پیش از این ، کاربران محدود به تایپ کردن در متن متن و پیوستن به تصاویر دیگر برای کمک به راهنمایی نسل ها بودند (این مدل می تواند انواع مختلفی از تصاویر بارگیری شده و پیوست شده توسط کاربر ، از جمله سایر نسل های میان دوره ای را شامل شود تا بر سبک و موضوعات نسل های جدید تأثیر بگذارد).

اکنون ، کاربر می تواند به سادگی با صدای بلند با وب سایت آلفا Midjourney (alpha.midjourney.com) صحبت کند – به شرطی که آنها یک میکروفون در رایانه خود داشته باشند/با استفاده از یک دستگاه شبکه ای با ورودی صوتی ، مانند هدفون یا تلفن هوشمند) ، مانند این مدل گوش می دهند و متن های خود را بر اساس این موارد از این طریق از این موارد استفاده می کنند.

مشخص نیست که آیا Midjourney یک مدل ورودی صوتی جدید (گفتار به متن) را از ابتدا ایجاد کرده است یا خیر یا از یک نسخه تنظیم شده یا خارج از جعبه یکی از ارائه دهنده های دیگر مانند Elevenlabs یا OpenAI استفاده می کند. من از دیوید هولز از بنیانگذار Midjourney در X پرسیدم ، اما او هنوز جواب نداده است.

با استفاده از حالت پیش نویس و ورودی صدای مکالمه برای سریع در حالت جریان

دست زدن به دست با این روش ورودی “حالت پیش نویس” جدید است که با سرعت بیشتری از Midjourney V6.1 ، نسخه فوری قبلی ، اغلب در کمتر از یک دقیقه یا حتی 30 ثانیه در برخی موارد ، تصاویر را ایجاد می کند.

در حالی که تصاویر در ابتدا از کیفیت پایین تر از V6.1 برخوردار هستند ، کاربر می تواند بر روی دکمه های “تقویت” یا “متفاوت” واقع در سمت راست هر نسل کلیک کند تا دوباره پیش نویس را با کیفیت کامل ارائه دهد.

ایده این است که کاربر انسانی خوشحال خواهد شد که از هر دو با هم استفاده کند – در واقع ، شما باید “حالت پیش نویس” را روشن کنید تا بتواند ورودی صوتی را فعال کند – برای وارد کردن یک جریان یکپارچه تر از پیش نویس خلاقانه با مدل ، گذراندن زمان کمتری برای پالایش زبان خاص و بیشتر در دیدن نسل های جدید ، دوباره در زمان واقعی ، و تنظیم آنها به سادگی از آنها استفاده می کنید و یا آنها را به راحتی می توانید به صورت طبیعی تر و به صورت طبیعی تر تنظیم کنید.

“این نگاه دقیق تر ، تاریک تر ، سبک تر ، واقع بینانه تر ، جنبشی تر ، پر جنب و جوش تر” ، و غیره برخی از دستورالعمل هایی است که کاربر می تواند از طریق رابط صوتی جدید در پاسخ به نسل ها ارائه دهد تا تولیدات جدید و تنظیم شده ای را تولید کند که بهتر با دید خلاق خود مطابقت داشته باشد.

شروع با Midjourney v7

برای وارد کردن این حالت ها ، با شروع ویژگی جدید “پیش نویس” ، کاربر ابتدا باید از طریق یک مانع جدید: ویژگی شخصی سازی Midjourney پرش کند.

در حالی که این ویژگی قبلاً در ژوئن سال 2024 در Midjourney V6 معرفی شده بود ، این اختیاری بود و به کاربر این امکان را می داد تا “سبک” شخصی را ایجاد کند که بتواند با رتبه 200 جفت تصویر (انتخاب که روی کاربر بهترین دوست دارد) از طریق وب سایت Midjourney استفاده کند. کاربر می تواند به سبکی که با تصاویر مورد نظر آنها در طی فرآیند رتبه بندی زوج مطابقت دارد ، تغییر دهد.

اکنون ، Midjourney V7 به کاربران نیاز دارد تا یک سبک شخصی جدید V7 خاص تولید کنند پیش از حتی در وهله اول از آن استفاده کنید.

هنگامی که کاربر این کار را انجام داد ، آنها در داشبورد وب سایت آشنا Alpha Alpha آشنا قرار می گیرند که می توانند روی “ایجاد” از راه آهن سمت چپ کلیک کنند تا یک برگه ایجاد را باز کند.

سپس ، در نوار ورودی سریع در بالا ، کاربر می تواند روی دکمه جدید “P” در سمت راست نوار کلیک کند تا حالت شخصی سازی خود را روشن کند.

دیوید هولز ، بنیانگذار و رهبر Midjourney تأیید کرد که VentureBeat On X را در X تأیید می کند که سبک های شخصی سازی قدیمی تر از V6 نیز می تواند انتخاب شود ، اما نه “تخته های میانه” جداگانه-سبک های ساخته شده از مجموعه های تصویر توسط کاربر-هرچند که حساب X Midjourney به طور جداگانه اظهار داشت که این ویژگی به زودی باز خواهد گشت. با این حال ، من فرصتی برای انتخاب سبک قدیمی V6 خود ندیدم.

با این وجود ، کاربر می تواند بر روی دکمه جدید “Draft Mode” در سمت راست دکمه شخصی سازی (همچنین به سمت راست کادر ورود سریع متن) کلیک کند تا این حالت سریعتر تولید تصویر را فعال کند.

پس از انتخاب با مکان نما ، پرتقال را نشان می دهد که نشان می دهد روشن است ، و سپس یک دکمه جدید با یک نماد میکروفون باید در سمت راست این یکی ظاهر شود. این حالت درخواست صوتی است که کاربر می تواند بار دیگر برای فعال کردن روی آن کلیک کند.

هنگامی که کاربر این دکمه میکروفون را فشار داد تا وارد حالت درخواست صوتی شود ، باید نماد میکروفون را از سفید به نارنجی تغییر دهد تا نشان دهد که درگیر آن است ، و یک خط شکل موج در سمت راست آن ظاهر می شود که باید به موقع با گفتار کاربر شروع شود.

سپس این مدل قادر به شنیدن شما خواهد بود و همچنین هنگام پایان صحبت کردن باید بشنوید. در عمل ، من گاهی اوقات یک پیام خطایی دریافت می کردم که می گفت “API در زمان واقعی قطع شده است” ، اما متوقف کردن و راه اندازی مجدد حالت ورود صدا و طراوت صفحه وب معمولاً آن را به سرعت پاک می کند.

بعد از چند ثانیه صحبت کردن ، Midjourney شروع به چشمک زدن برخی از ویندوزهای کلمات کلیدی در زیر جعبه متن ورودی سریع در بالا خواهد کرد و همچنین یک متن کامل را به سمت راست ایجاد می کند زیرا مجموعه جدیدی از 4 تصویر را بر اساس گفته های کاربر ایجاد می کند.

کاربر سپس می تواند با صحبت دوباره با مدل ، این نسل های جدید را تغییر دهد و در صورت لزوم حالت صوتی را روشن و خاموش کند.

در اینجا یک فیلم نمایشی سریع از من با استفاده از آن امروز برای تولید برخی از تصاویر نمونه آورده شده است. خواهید دید که این روند به دور از ایده آل است ، اما واقعاً سریع است و باعث می شود وضعیت قطع شده در فوریت ، پالایش و دریافت تصاویر از مدل بیشتر شود.

ویژگی های جدید بیشتر … اما همچنین بسیاری از ویژگی ها و محدودیت های مفقود شده از V6/6.1

Midjourney V7 با دو حالت عملیاتی راه اندازی می شود: توربو و استراحت. Turbo Mode عملکرد بالایی را با دو برابر هزینه یک کار استاندارد V6 ارائه می دهد ، در حالی که پیش نویس حالت نیمی از حد (از نظر شغل) هزینه دارد. در حال حاضر یک حالت با سرعت استاندارد در حال توسعه است و پس از بهینه سازی منتشر می شود.

در هنگام راه اندازی ، ویژگی هایی از قبیل upscaling ، inpaining و retexturing به طور موقت به مدل V6 اعتماد می کنند. Midjourney قصد دارد در به روزرسانی های بعدی این توابع را به V7 منتقل کند.

این شرکت طی دو ماه آینده متعهد به توسعه منظم است و به روزرسانی های هر یک تا دو هفته برنامه ریزی شده است. علاوه بر این مهم آینده یک شخصیت جدید و سیستم مرجع شیء خواهد بود که به طور خاص برای V7 طراحی شده است ، ویژگی های موجود در نسخه های قدیمی Midjourney با استفاده از پسوندهای سریع متن Arcane مانند -CREF و -SREF (برای سبک) برای تمایل به متن کاربر.

Midjourney قصد دارد جامعه خود را از طریق فضاهای اشتراک عمومی و کانال های بازخورد درگیر کند و این یک جلسه رتبه بندی نقشه راه را برای کمک به اولویت بندی تلاش های توسعه آینده برگزار می کند.

Midjourney تأکید می کند که V7 یک مدل کاملاً جدید با نقاط قوت و چالش های خاص خود است. کاربران تشویق می شوند که با سبک های مختلف مختلف آزمایش کنند و تجربیات خود را برای کمک به اصلاح سیستم عامل گزارش دهند.

واکنش اولیه مخلوط است … به دور از ستایش تقریباً بی نظیر از نسخه های قبلی میان دوره ای

در حالی که بیشتر نسخه های قدیمی میان دوره ای با هیجان و تحریک بیش از حد روبرو شده اند ، پذیرش اولیه V7 به طور قطع مخلوط تر است.

اگرچه Midjourney مراقب بود که این نسخه را “آلفا” در وبلاگ خود و در رسانه های اجتماعی بنامد ، اما بسیاری از کاربران هنوز انتظار پرش بزرگتر در کیفیت تصویر و پایبندی سریع را دارند (چگونه نسل های تصویر با دستورالعمل های خاص کاربر در متن یا صوتی مطابقت دارند) ، و همچنین امیدوار به بهبود درک آناتومیکی انسانی (به ویژه دست ها ، هرچند که یک نوع Newgrame Newglgglggled) و همچنین مدل های Text Text (Text Generation “. به نظر می رسد که ژنراتور تصویر GPT-4O بر اساس گزارش های اولیه کاربر ، آن را بسیار دقیق تر از Midjourney V7 دریافت می کند).

همانطور که freiboitar در x نوشت:

“باید آن را بگو: Kinda ناامید شد.
Openai نوار آسمان را بلند کرد. با تصویر خود صحبت کنید مثل این که برادر شماست؟ ذهن = دمیده

MJ7 “واقع بینانه تر” به نظر می رسد. اما آیا واقعاً به آن احتیاج داشتیم؟
MJ + با شکوه قبلاً آن را میخ زده است.

ممکن است Sub tbh من را مکث کند. “

“Javi Lopez ، بنیانگذار باشکوه AI ، با استناد به ماهیت به ظاهر افزایشی به روزرسانی ها ، گفت:” مشکل V7 واقعاً مانند V7 نیست. بیشتر شبیه V6.2 است. “

در واقع ، ایتان مولیک ، استاد دانشکده بازرگانی پنسیلوانیا وارتون و تأثیرگذار AI ، همچنین گفت: “من نسخه های جدید آنها را دوست دارم اما مشکل با V7 جدید (سمت راست) که امروز منتشر شد این است که V6 (سمت چپ) از قبل واقعاً خوب بود.”

دیوید شاپیرو در X نوشت: “بندهای یکسان از V6 در V7 بدتر است.”

هنرمند و نوازنده Captainhahaa گفت: “همه علاقه مندی های قدیمی که خیلی پیر می شوند ، گفت:” دست ها ، متن هنوز هم یک مسئله ، بدون CREF ، SREFS از بین رفته است. اما خوب است زیرا شما می توانید با آن صحبت کنید در حالی که شما را ناامید می کند. “

برخی دیگر از نسل های آزمایش اولیه خود در V7 بخشنده و خوشحال تر بودند ، در حالی که کاربر AI Power Dreaming Tulpa در X گفت: “کیفیت تصویر بهتری” داشت و “فوق العاده هنری” بود.

به همین ترتیب ، تاتیانا Tsiguleva ، هنرمند و طراح هوش مصنوعی ابراز کرد که Midjourney V7 “پرش بزرگی در کیفیت است!”

با این حال ، هنوز روزهای اولیه برای Midjourney V7 است ، و واکنش اولیه می تواند از هر جهت برگردد – چه از نظر ظاهری یا ناامیدی از ویژگی های جدید و ویژگی های طراحی. در حال حاضر ، در دسترس هر کسی است که یک حساب Midjourney برای شروع استفاده از آن در دسترس است.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد