Bunway Gen-4 بزرگترین مشکل AI Video را حل می کند: قوام شخصیت در صحنه ها
Bunway Gen-4 بزرگترین مشکل AI Video را حل می کند: قوام شخصیت در صحنه ها

Bunway Gen-4 بزرگترین مشکل AI Video را حل می کند: قوام شخصیت در صحنه ها

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


شرکت باند AI امروز پیشرفته ترین مدل تولید ویدیوی هوش مصنوعی خود را امروز راه اندازی کرد و وارد مرحله بعدی رقابت شد تا ابزارهایی ایجاد کند که بتواند تولید فیلم را تغییر دهد. سیستم جدید Gen-4 قوام شخصیت و صحنه را در چندین عکس معرفی می کند-توانایی ای که تاکنون از بیشتر ژنراتورهای ویدیویی هوش مصنوعی فرار کرده است.

استارتاپ مستقر در نیویورک ، با حمایت Google ، NVIDIA و Salesforce ، “Gen-4” را برای همه مشترکین و مشتریان شرکت پرداخت شده با ویژگی های اضافی که برای اواخر این هفته برنامه ریزی شده است ، منتشر می کند. کاربران می توانند کلیپ های پنج و ده ثانیه ای را با وضوح 720p تولید کنند.

این نسخه فقط چند روز پس از آن منتشر می شود که OpenAI یک ویژگی جدید تولید تصویر را منتشر کرد که امکان سازگاری شخصیت را در تصاویر خود نیز فراهم می کند. این نسخه یک پدیده فرهنگی ایجاد کرده است که میلیون ها کاربر درخواست استودیو Ghibli به سبک را از طریق ChatGPT درخواست کردند. این بخشی از قوام سبک Ghibli در چت هایی بود که باعث ایجاد Furor شد.

روند ویروسی چنان محبوب شد که به طور موقت سرورهای Openai را سقوط کرد ، با این که مدیرعامل سام آلتمن توئیت کرد که “GPU های ما در حال ذوب شدن هستند” به دلیل تقاضای بی سابقه. تصاویر به سبک Ghibli همچنین مباحثات داغ در مورد حق چاپ را برانگیخت و بسیاری از آنها این سؤال را مطرح کردند که آیا شرکت های هوش مصنوعی می توانند از نظر قانونی از سبک های هنری متمایز تقلید کنند.

https://www.youtube.com/watch؟v=urkfzkyfoxc

تداوم بصری: قطعه گمشده در فیلم سازی AI تاکنون

بنابراین اگر قوام شخصیت منجر به رشد گسترده ویروسی برای ویژگی تصویر OpenAi شود ، آیا می تواند در باند در فیلم اتفاق بیفتد؟

قوام شخصیت و صحنه – حفظ همان عناصر بصری در چندین عکس و زاویه – پاشنه آشیل از تولید ویدیوی هوش مصنوعی بوده است. هنگامی که چهره یک شخصیت به طور ظریف بین برش ها یا یک عنصر پس زمینه تغییر می کند بدون توضیح از بین می رود ، ماهیت مصنوعی محتوا بلافاصله برای بینندگان آشکار می شود.

این چالش ناشی از نحوه عملکرد این مدل ها در سطح اساسی است. ژنراتورهای هوش مصنوعی قبلی با هر فریم به عنوان یک کار خلاق جداگانه رفتار می کردند و فقط ارتباطات سست بین آنها وجود داشت. تصور کنید از یک اتاق پر از هنرمندان می پرسید که هر یک از آنها یک قاب یک فیلم را ترسیم کنید بدون اینکه ببینید چه چیزی قبل یا بعد از آن آمده است – نتیجه از نظر بصری جدا می شود.

به نظر می رسد Gen-4 باند با ایجاد آنچه به یک حافظه مداوم از عناصر بصری می رسد ، این مشکل را برطرف کرده است. پس از ایجاد یک شخصیت ، شی یا محیط ، سیستم می تواند ضمن حفظ ویژگی های اصلی خود ، آن را از زوایای مختلف منتقل کند. این فقط یک پیشرفت فنی نیست ؛ این تفاوت بین ایجاد قطعه های بصری جالب و گفتن داستانهای واقعی است.

طبق اسناد باند باند ، GEN-4 به کاربران اجازه می دهد تا تصاویر مرجع موضوعات را ارائه دهند و ترکیب مورد نظر خود را توصیف کنند ، با AI که خروجی های سازگار از زوایای مختلف ایجاد می کند. این شرکت ادعا می کند که این مدل می تواند فیلم ها را با حرکت واقع گرایانه ضمن حفظ قوام موضوع ، شی و سبک ارائه دهد.

برای نشان دادن قابلیت های مدل ، Runway چندین فیلم کوتاه را منتشر کرد که کاملاً با GEN-4 ساخته شده است. یک فیلم با عنوان “نیویورک یک باغ وحش است” ، با قرار دادن حیوانات واقع بینانه در تنظیمات سینمایی نیویورک ، جلوه های بصری این مدل را نشان می دهد. یکی دیگر از آنها با عنوان “بازیابی” به دنبال کاوشگرانی است که به دنبال یک گل مرموز هستند و در کمتر از یک هفته تولید می شود.

https://www.youtube.com/watch؟v=xehgxhraje4

از انیمیشن صورت گرفته تا مدل های جهانی: تکامل فیلم سازی AI باند فرودگاه

Gen-4 بر روی ابزارهای قبلی باند ساخته شده است. در ماه اکتبر ، این شرکت ACT-ONE را منتشر کرد ، ویژگی ای که به فیلمسازان امکان می دهد چهره های صورت را از ویدیوی تلفن های هوشمند ضبط کرده و آنها را به شخصیت های تولید شده AI منتقل کنند. در ماه بعد ، باند باند کنترل های پیشرفته مانند سه بعدی را به مدل Gen-3 Alpha Turbo خود اضافه کرد و کاربران را قادر می سازد ضمن حفظ فرم های شخصیت ، از صحنه ها و خارج از صحنه ها استفاده کنند.

این مسیر دید استراتژیک باند را نشان می دهد. در حالی که رقبا بر ایجاد تصاویر یا کلیپ های مجرد واقعی تر تمرکز می کنند ، باند فرودگاه در حال مونتاژ اجزای یک خط لوله تولید دیجیتال کامل است. این رویکرد بیشتر به نحوه عملکرد فیلمسازان واقعی احساس می کند – پرداختن به مشکلات عملکرد ، پوشش و تداوم بصری به عنوان چالش های بهم پیوسته به جای موانع فنی منزوی.

تکامل از ابزارهای انیمیشن صورت تا مدل های جهانی سازگار نشان می دهد که باند می فهمد که فیلم سازی با کمک AI باید منطق تولید سنتی را دنبال کند تا واقعاً مفید باشد. این تفاوت بین ایجاد یک نسخه ی نمایشی فنی و ساخت و ساز ابزار در واقع می تواند در گردش کار آنها باشد.

نبرد میلیارد دلاری AI Video گرم می شود

پیامدهای مالی برای باند فرودگاه قابل توجه است ، که طبق گزارش ها ، یک دوره بودجه جدید را افزایش می دهد که این شرکت را 4 میلیارد دلار ارزش می دهد. براساس گزارش های مالی ، این استارتاپ قصد دارد امسال پس از عرضه محصولات جدید و API برای مدل های تولید ویدیویی خود به 300 میلیون دلار درآمد سالانه برسد.

Runway مشارکت های هالیوود را دنبال کرده است و با Lionsgate معامله می کند تا یک مدل تولید ویدیویی AI سفارشی را بر اساس کاتالوگ استودیو بیش از 20،000 عنوان ایجاد کند. این شرکت همچنین صد صندوق فیلم را تأسیس کرده است و به فیلمسازان حداکثر 1 میلیون دلار برای تولید فیلم با استفاده از هوش مصنوعی ارائه می دهد.

باند در وب سایت صندوق خود توضیح می دهد: “ما معتقدیم که بهترین داستانها هنوز گفته نشده است ، اما مکانیسم های سنتی بودجه اغلب از دیدگاه های جدید و در حال ظهور در اکوسیستم صنعت بزرگتر غافل می شوند.”

با این حال ، این فناوری نگرانی های متخصصان صنعت فیلم را ایجاد می کند. یک مطالعه 2024 که توسط انجمن صنفی انیمیشن انجام شد ، نشان داد که 75 ٪ از شرکت های تولیدی فیلم که هوش مصنوعی را اتخاذ کرده اند ، مشاغل کاهش یافته ، تلفیقی یا حذف شده اند. این مطالعه که بیش از 100000 شغل سرگرمی ایالات متحده تا سال 2026 تحت تأثیر AI تولیدی قرار خواهد گرفت.

مانند سایر شرکت های هوش مصنوعی ، باند در مورد داده های آموزشی خود با بررسی حقوقی روبرو است. این شرکت در حال حاضر در دادخواستی که توسط هنرمندانی که ادعا می کنند کارهای دارای حق چاپ خود را برای آموزش مدل های هوش مصنوعی بدون اجازه انجام می دهند ، از خود دفاع می کند. Runway دکترین استفاده منصفانه را به عنوان دفاع خود ذکر کرده است ، اگرچه دادگاه ها هنوز به طور قطعی بر این کاربرد قانون کپی رایت رد نشده اند.

بحث کپی رایت هفته گذشته با ویژگی استودیوی Ghibli OpenAi شدت گرفت ، که به کاربران امکان می داد تصاویر را به سبک متمایز استودیوی انیمیشن Hayao Miyazaki بدون اجازه صریح تولید کنند. بر خلاف OpenAi ، که از تولید تصاویر به سبک هنرمندان زنده اما سبک های استودیویی خودداری می کند ، باند فرودگاه به طور عمومی سیاست های خود را در مورد تقلید سبک شرح داده است.

این تمایز به طور فزاینده ای احساس می کند که مدلهای هوش مصنوعی پیشرفته تر می شوند. خط بین یادگیری از سنت های هنری گسترده و کپی کردن از سبک های خاص سازندگان ، به نامرئی بودن نزدیک شده است. هنگامی که یک هوش مصنوعی می تواند کاملاً از زبان بصری که ده ها سال برای توسعه میازاکی به طول انجامید ، تقلید کند ، آیا مهم است که آیا ما از آن می خواهیم که استودیو را کپی کند یا خود هنرمند؟

با استناد به نگرانی های رقابتی ، هنگامی که از آموزش منابع داده استفاده می شود ، باند از ارائه مشخصات خودداری کرده است. این کدورت در بین توسعه دهندگان هوش مصنوعی به یک روش استاندارد تبدیل شده است اما برای سازندگان یک نقطه نظر باقی مانده است.

به عنوان آژانس های بازاریابی ، سازندگان محتوای آموزشی و تیم های ارتباطی شرکت ها در حال بررسی چگونگی ابزارهای مانند Gen-4 می توانند تولید فیلم را ساده تر کنند ، این سؤال از قابلیت های فنی به کاربرد خلاق تغییر می کند.

برای فیلمسازان ، این فناوری هم فرصت و هم اختلال را نشان می دهد. سازندگان مستقل به قابلیت های جلوه های بصری که قبلاً فقط در استودیوهای اصلی در دسترس بودند ، دسترسی پیدا می کنند ، در حالی که متخصصان سنتی VFX و انیمیشن با آینده ای نامشخص روبرو هستند.

حقیقت ناراحت کننده این است که محدودیت های فنی هرگز چیزی نبوده است که بیشتر افراد از ساخت فیلم های قانع کننده جلوگیری می کنند. توانایی حفظ تداوم بصری به طور ناگهانی نسلی از نبوغ قصه گویی را ایجاد نمی کند. با این حال ، آنچه ممکن است انجام دهد ، از بین بردن اصطکاک کافی از این فرآیند است که افراد بیشتری می توانند بدون نیاز به آموزش تخصصی یا تجهیزات گران قیمت ، با روایت بصری آزمایش کنند.

شاید عمیق ترین جنبه Gen-4 چیزی باشد که می تواند ایجاد کند ، بلکه آنچه در مورد رابطه ما با رسانه های تصویری پیش می رود ، نشان می دهد. ما در حال ورود به دوره ای هستیم که تنگنای تولید مهارت فنی یا بودجه نیست ، بلکه تخیل و هدف است. در دنیایی که هر کسی می تواند تصویری را که می تواند توصیف کند ، ایجاد کند ، سوال مهم مطرح می شود: چه چیزی ارزش نشان دادن دارد؟

از آنجا که وارد دوره ای می شویم که ایجاد یک فیلم به چیزی بیشتر از یک تصویر مرجع و سریع نیاز دارد ، مهمترین سؤال این نیست که آیا هوش مصنوعی می تواند فیلم های قانع کننده ای بسازد ، اما اینکه آیا می توانیم چیزی معنی دار پیدا کنیم تا بگوییم وقتی ابزارهایی برای گفتن هر چیزی در نوک انگشتان ما هستند.