Lightricks فقط AI Video Generation 30x را سریعتر ساخت - و به پردازنده گرافیکی 10،000 دلاری احتیاج ندارید
Two AI-generated rabbits, rendered on a single consumer GPU, stride off after a brief glance at the camera — an unedited four-second sample from Lightricks’ new LTXV-13B model. (Credit: Lightricks)

Lightricks فقط AI Video Generation 30x را سریعتر ساخت – و به پردازنده گرافیکی 10،000 دلاری احتیاج ندارید

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


Lightricks ، شرکت پشت برنامه های خلاقانه محبوب مانند FaceTune و VideoLeap ، امروز منتشر شده از قدرتمندترین مدل تولید ویدیوی هوش مصنوعی خود تا به امروز خبر داد. مدل LTX ویدیوی 13 میلیارد پارامتر (LTXV-13B) ویدیوی AI با کیفیت بالا را تا 30 برابر سریعتر از مدل های قابل مقایسه تولید می کند در حالی که روی سخت افزار درجه مصرف کننده به جای GPU های گران قیمت شرکت می کند.

این مدل “رندر چند مقیاس” را معرفی می کند ، یک رویکرد فنی جدید که با تولید فیلم در لایه های مترقی از جزئیات ، به طور چشمگیری کارآیی را افزایش می دهد. این امر به سازندگان این امکان را می دهد تا به جای نیاز به تجهیزات تخصصی سازمانی ، فیلم های AI با کیفیت حرفه ای را در رایانه های استاندارد دسک تاپ و لپ تاپ های سطح بالا تولید کنند.

Zeev Farbman ، بنیانگذار و مدیرعامل Lightricks ، در مصاحبه اختصاصی با VentureBeat گفت: “معرفی مدل ویدیوی پارامتر LTX پارامتر ما ، لحظه ای مهم را در تولید ویدیوی هوش مصنوعی با توانایی تولید فیلم های با کیفیت بالا در GPU های مصرف کننده نشان می دهد.” “کاربران ما اکنون می توانند با سازگاری بیشتر ، کیفیت بهتر و کنترل محکم تر ، محتوا ایجاد کنند.”

https://www.youtube.com/watch؟v=7zmxtmyud_u

چگونه Lightricks با حل مشکل حافظه GPU ، فیلم AI را دموکراتیک می کند

یک چالش مهم برای تولید ویدیوی هوش مصنوعی ، الزامات محاسباتی عظیم بوده است. مدل های پیشرو شرکت هایی مانند باند ، پیکا و لوما به طور معمول در GPU های چند شرکت با 80 گیگابایت یا بیشتر VRAM (حافظه ویدیویی) در ابر اجرا می شوند و استقرار محلی را برای اکثر کاربران غیر عملی می کند.

Farbman توضیح داد که چگونه LTXV-13B به این محدودیت می پردازد: “خط اصلی تقسیم بین GPU های مصرف کننده و شرکت ، مقدار VRAM است. Nvidia موقعیت سخت افزاری بازی خود را با محدودیت های حافظه سخت ارائه می دهد-نسل قبلی 3090 و 4090 GPU در 24 گیگابایت Vram. به طور قابل توجهی بیشتر. “

مدل جدید به گونه ای طراحی شده است که به طور مؤثر در این محدودیت های سخت افزار مصرف کننده کار کند. فاربمن خاطرنشان کرد: “مدل کامل ، بدون هیچ گونه کمیت ، بدون هیچ گونه تقریب ، شما قادر خواهید بود در GPU های برتر مصرف کننده – 3090 ، 4090 ، 5090 ، از جمله نسخه های لپ تاپ آنها اجرا کنید.”

در داخل “رندر چند طبقه”: تکنیک الهام گرفته از هنرمند که باعث می شود AI Video Generation 30x سریعتر شود

نوآوری اصلی در پشت کارآیی LTXV-13B رویکرد ارائه چند مقیاس آن است که فاربمن آن را “بزرگترین پیشرفت فنی این نسخه” توصیف کرد.

وی توضیح داد: “این به مدل اجازه می دهد تا جزئیات را به تدریج تولید کند.” “شما از شبکه درشت شروع می کنید ، تقریب تقریبی صحنه ، حرکت اشیاء در حال حرکت و غیره را بدست می آورید و سپس صحنه به نوعی به کاشی تقسیم می شود. و هر کاشی با جزئیات بیشتر به تدریج پر می شود.”

این فرآیند آینه ای را نشان می دهد که چگونه هنرمندان به صحنه های پیچیده نزدیک می شوند – قبل از اضافه کردن جزئیات به تدریج ظریف ، از طرح های خشن شروع می کنند. مزیت برای هوش مصنوعی این است که “مقدار اوج VRAM شما با اندازه کاشی محدود است ، نه وضوح نهایی.”

این مدل همچنین دارای فضای نهفته فشرده تر است که ضمن حفظ کیفیت ، به حافظه کمتری نیاز دارد. فاربمن افزود: “با فیلم ها ، شما نسبت فشرده سازی بالاتری دارید که به شما امکان می دهد ، در حالی که در فضای نهفته هستید ، فقط VRAM کمتری مصرف کنید.”

معیارهای عملکردی که مدل LTXV-13B Lightricks را نشان می دهد ، فقط در 37.59 ثانیه تولید می کند ، در مقایسه با بیش از 1،491 ثانیه برای یک مدل رقیب در سخت افزار معادل-تقریباً 40 سرعت. (اعتبار: Lightricks)

چرا Lightricks وقتی که بازارهای هوش مصنوعی به طور فزاینده ای بسته می شوند ، در منبع باز شرط می بندند

در حالی که بسیاری از مدلهای پیشرو در زمینه هوش مصنوعی در پشت API های بسته باقی مانده اند ، Lightricks باعث شده LTXV-13B منبع کاملاً باز باشد ، که در Bugging Face و GitHub موجود است. این تصمیم در دوره ای صورت می گیرد که توسعه هوش مصنوعی منبع باز با چالش هایی از رقابت تجاری روبرو شده است.

فاربمن اظهار داشت: “یک سال پیش ، اوضاع بسته شد ، اما همه چیز به نوعی افتتاح می شود. ما واقعاً بسیاری از LLM ها و مدل های انتشار را باز می کنیم.” “من الان نسبت به نیم سال پیش خوش بین تر هستم.”

استراتژی منبع باز همچنین به تسریع در تحقیق و بهبود کمک می کند. فاربمن توضیح داد: “عقلانیت اصلی برای منبع باز ، کاهش هزینه تحقیق و توسعه شما است.” “یک تن از افراد در آکادمی وجود دارند که از این مدل استفاده می کنند ، مقالات را می نویسند ، و شما شروع به تبدیل شدن به این متصدی می کنید که می داند طلا واقعی کجاست.”

از آنجا که چالش های قانونی در برابر شرکت های هوش مصنوعی با استفاده از داده های آموزش خراشیده شده ، Lightricks برای دسترسی به محتوای دارای مجوز برای آموزش مدل ، مشارکت با Getty Images و Shutterstock را تضمین کرده است.

فاربمن اذعان کرد: “جمع آوری داده ها برای آموزش مدل های هوش مصنوعی هنوز یک منطقه خاکستری قانونی است.” “ما در بخش سازمانی خود مشتری های بزرگی داریم که به این نوع چیزها اهمیت می دهند ، بنابراین باید اطمینان حاصل کنیم که می توانیم مدل های تمیز را برای آنها فراهم کنیم.”

این مشارکتها به لایتریک ها اجازه می دهد تا الگویی با کاهش خطر قانونی برای برنامه های تجاری ارائه دهند ، و به طور بالقوه به آن مزیت در بازارهای سازمانی مربوط به مسائل مربوط به حق چاپ می دهد.

قمار استراتژیک: چرا Lightricks مدل پیشرفته AI خود را به صورت رایگان برای راه اندازی ارائه می دهد

در اقدامی غیرمعمول برای صنعت هوش مصنوعی ، Lightricks در حال ارائه مجوز برای شرکت های دارای زیر 10 میلیون دلار درآمد سالانه است. این رویکرد با هدف ایجاد جامعه ای از توسعه دهندگان و شرکت هایی که می توانند ارزش مدل را قبل از کسب درآمد نشان دهند.

فاربمن گفت: “فکر این بود که آکادمی ها از این کار خارج هستند. این بچه ها می توانند هر کاری را که می خواهند با مدل انجام دهند.” “با استارتاپ ها و صنعت ، شما می خواهید موقعیت های برنده ایجاد کنید. فکر نمی کنم شما بتوانید یک تن پول از جامعه ای از هنرمندانی که با چیزهای هوش مصنوعی بازی می کنند ، بدست آورید.”

برای شرکت های بزرگتر که با این مدل موفقیت پیدا می کنند ، Lightricks قصد دارد در مورد توافق نامه های صدور مجوز مشابه با نحوه شارژ موتورهای بازی توسعه دهندگان موفق مذاکره کند. فاربمن توضیح داد: “هنگامی که آنها به ده میلیون درآمد رسیدند ، ما می خواهیم با آنها در مورد مجوز صحبت کنیم.”

علیرغم پیشرفت های ارائه شده توسط LTXV-13B ، فاربمن اذعان می کند که تولید ویدیوی هوش مصنوعی هنوز محدودیت هایی دارد. وی گفت: “اگر با خودمان صادق باشیم و به مدل های برتر نگاه کنیم ، ما هنوز از فیلم های هالیوود دور هستیم. آنها هنوز در آنجا نیستند.”

با این حال ، او برنامه های کاربردی فوری را در مناطقی مانند انیمیشن می بیند ، جایی که متخصصان خلاق می توانند از هوش مصنوعی برای رسیدگی به جنبه های وقت گیر تولید استفاده کنند. فاربمن خاطرنشان کرد: “وقتی به هزینه های تولید انیمیشن سطح بالا فکر می کنید ، کار خلاقانه واقعی ، افرادی که در مورد فریم های کلیدی و داستان فکر می کنند ، درصد کمی از بودجه است. اما فریم کردن کلیدی یک منبع بزرگ است.”

با نگاه به آینده ، Farbman پیش بینی می کند که مرزهای بعدی مدل های ویدیویی چند حالته باشد که انواع رسانه های مختلف را در یک فضای نهفته مشترک ادغام می کند. “این موسیقی ، صدا ، فیلم و غیره خواهد بود و سپس کارهایی مانند انجام همگام سازی لب خوب آسان تر خواهد شد. همه این موارد از بین می روند. شما می خواهید این مدل چند حالته را داشته باشید که می داند چگونه در تمام این روش های مختلف کار کند.”

LTXV-13B اکنون به عنوان یک نسخه منبع باز در دسترس است و در برنامه های خلاقانه Lightricks ، از جمله پلت فرم داستان پردازی پرچمدار آن ، LTX Studio ادغام می شود.