برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
یک راه اندازی دو نفره به نام Nari Labs DIA را معرفی کرده است ، یک مدل متنی به گفتار 1.6 میلیارد پارامتر (TTS) که برای تولید گفتگوی طبیعت گرایانه مستقیماً از متن متن طراحی شده است-و یکی از سازندگان آن ادعا می کند که عملکرد پیشنهادهای اختصاصی رقیب را از امثال ElevenLabs ، Hit Google Notebooklm Ai Podcast Product تولید می کند.
همچنین می تواند جذب GPT-4O-Mini-TTS اخیر Openai را تهدید کند.
توبی کیم ، یکی از سازندگان Nari و Dia ، در پستی از حساب خود در شبکه اجتماعی X گفت: “ویژگی پادکست Notebooklm Dia Rivals در حالی که از استودیوی Elevellabs و مدل باز کنجد با کیفیت فراتر رفته است.”
در یک پست جداگانه ، کیم خاطرنشان کرد که این مدل با “بودجه صفر” ساخته شده است و به یک موضوع اضافه شده است: “… ما از ابتدا کارشناسان هوش مصنوعی نبودیم. همه ما از زمانی که سال گذشته با ویژگی پادکست NotebookLM عاشق شدیم ، شروع شد. ما می خواستیم بیشتر بر روی صداها ، آزادی بیشتری در فیلمنامه را کنترل کنیم.
کیم در ادامه به Google برای دسترسی به وی و همكار خود به تراشه های واحد پردازش Tensor این شركت (TPU) برای آموزش DIA از طریق Cloud Research Google ، اعتبار داد.
کد و وزن DIA – مجموعه اتصال مدل داخلی – اکنون برای بارگیری و استقرار محلی توسط هر کسی از بغل کردن صورت یا GitHub در دسترس است. کاربران انفرادی می توانند در یک فضای بغل صورت ، سخنرانی از آن را امتحان کنند.
کنترل های پیشرفته و ویژگی های قابل تنظیم تر
DIA از ویژگی های ظریف مانند لحن عاطفی ، برچسب زدن بلندگو و نشانه های صوتی غیر کلامی پشتیبانی می کند – همه از متن ساده.
کاربران می توانند چرخش بلندگوها را با برچسب هایی مانند (S1) و (S2) علامت گذاری کنند و شامل نشانه هایی مانند (خنده) ، (سرفه) یا (پاک کردن گلو) برای غنی سازی گفتگوی حاصل با رفتارهای غیر کلامی هستند.
این برچسب ها به درستی توسط DIA در طول نسل تفسیر می شوند – طبق صفحه نمونه های این شرکت ، چیزی که به طور قابل اعتماد توسط سایر مدلهای موجود پشتیبانی نمی شود.
این مدل در حال حاضر فقط انگلیسی است و به صدای بلندگوهای تکلر گره خورده است ، و در هر اجرا صداهای مختلفی تولید می کند ، مگر اینکه کاربران بذر تولید را برطرف کنند یا سریعاً صوتی را ارائه دهند. تهویه صوتی یا کلونینگ صوتی ، به کاربران اجازه می دهد با بارگذاری یک کلیپ نمونه ، صدای گفتار و تشبیه را راهنمایی کنند.
NARI LABS برای تسهیل این فرآیند و یک نسخه ی نمایشی مبتنی بر Gradio کد مثال را ارائه می دهد تا کاربران بتوانند بدون تنظیم آن را امتحان کنند.
مقایسه با یازده و کنجد
NARI میزبان فایلهای صوتی مثال ایجاد شده توسط DIA در وب سایت مفهوم خود را ارائه می دهد ، و آن را با سایر رقبای پیشرو در گفتار به متن ، به طور خاص استودیوی Elevenlabs و Sesame CSM-1B مقایسه می کند ، دومی یک مدل متن به گفتار جدید از هدست Oculus VR Co-Creator Brendan iribe که اوایل سال جاری در اوایل سال به وجود آمد.
نمونه های جانبی به اشتراک گذاشته شده توسط آزمایشگاه های NARI نشان می دهد که چگونه DIA از رقابت در چندین زمینه بهتر عمل می کند:
در سناریوهای گفتگوی استاندارد ، DIA هر دو زمان طبیعی و عبارات غیر کلامی را بهتر می کند. به عنوان مثال ، در یک فیلمنامه پایان یافته با (می خندد) ، DIA خنده های واقعی را تفسیر می کند و می دهد ، در حالی که Elevenlabs و جایگزین های متنی خروجی کنجد مانند “HAHA”.
به عنوان مثال ، در اینجا DIA …
… و همان جمله ای که توسط استودیوی Elevellabs گفته شد
در مکالمات چند چرخش با دامنه عاطفی ، DIA انتقال صاف و تغییر لحن را نشان می دهد. یک آزمایش شامل یک صحنه اضطراری چشمگیر و عاطفی بود. دیا فوریت و استرس بلندگو را به طور موثری به وجود آورد ، در حالی که مدل های رقیب اغلب زایمان را مسطح می کردند یا قدم زدن را از دست می دادند.
DIA به طور منحصر به فرد اسکریپت های غیر کلامی را انجام می دهد ، مانند مبادله طنز که شامل سرفه ، خرخر و خنده است. مدل های رقیب نتوانستند این برچسب ها را تشخیص دهند یا آنها را به طور کامل پرش کنند.
حتی با وجود محتوای ریتمیک پیچیده مانند اشعار RAP ، DIA گفتار سیال و به سبک عملکرد را ایجاد می کند که سرعت را حفظ می کند. این در تضاد با خروجی های یکنواخت یا جدا شده بیشتر از یازده و مدل 1B کنجد است.
با استفاده از مطالب صوتی ، DIA می تواند سبک صوتی بلندگو را به خطوط جدید گسترش یا ادامه دهد. یک مثال با استفاده از یک کلیپ مکالمه به عنوان بذر نشان داد که چگونه DIA از طریق بقیه گفتگوی اسکریپت ، صفات صوتی را از نمونه حمل می کرد. این ویژگی در مدل های دیگر به طرز محکم پشتیبانی نمی شود.
در یک مجموعه از آزمایشات ، آزمایشگاه های NARI خاطرنشان کرد که بهترین نسخه نمایشی وب سایت Sesame به احتمال زیاد از نسخه 8B داخلی مدل به جای ایست بازرسی 1B عمومی استفاده کرده است و در نتیجه شکاف بین تبلیغات و عملکرد واقعی ایجاد می شود.
دسترسی به مدل و مشخصات فنی
توسعه دهندگان می توانند از مخزن GitHub Nari Labs و صفحه مدل چهره بغل آن به DIA دسترسی پیدا کنند.
این مدل روی Pytorch 2.0+ و CUDA 12.6 اجرا می شود و به حدود 10 گیگابایت VRAM نیاز دارد.
استنتاج در GPU های درجه یک مانند NVIDIA A4000 تقریباً 40 نشانه در ثانیه ارائه می دهد.
در حالی که نسخه فعلی فقط در GPU اجرا می شود ، NARI قصد دارد پشتیبانی CPU و نسخه کمی را برای بهبود دسترسی ارائه دهد.
این استارتاپ برای ساده تر کردن استقرار بیشتر ، یک کتابخانه پایتون و ابزار CLI را ارائه می دهد.
انعطاف پذیری DIA موارد استفاده را از ایجاد محتوا گرفته تا فن آوری های کمکی و صداپیشه های مصنوعی باز می کند.
NARI LABS همچنین در حال تهیه نسخه مصرف کننده از DIA است که با هدف کاربران گاه به گاه به دنبال ریمیکس یا به اشتراک گذاری مکالمات تولید شده است. کاربران علاقه مند می توانند از طریق ایمیل به لیست انتظار برای دسترسی زودهنگام آواز بخوانند.
منبع کاملاً باز
این مدل تحت مجوز کاملاً منبع باز Apache 2.0 توزیع می شود ، به این معنی که می توان از آن برای اهداف تجاری استفاده کرد – چیزی که بدیهی است برای شرکت ها یا توسعه دهندگان برنامه ایندی جذاب خواهد بود.
آزمایشگاه های NARI صریحاً استفاده را ممنوع می کند که شامل جعل افراد ، گسترش اطلاعات نادرست یا انجام فعالیت های غیرقانونی می شود. این تیم آزمایش مسئولیت پذیر را تشویق می کند و در برابر استقرار غیر اخلاقی موضع گیری کرده است.
اعتبار توسعه DIA از Cloud Research Google TPU ، در آغوش گرفتن برنامه اعطای Zerogpu Face و کارهای قبلی در SoundStorm ، Parakeet و کدک صوتی Descript پشتیبانی می کند.
Nari Labs خود فقط دو مهندس را تشکیل می دهد-یکی تمام وقت و یک پاره وقت-اما آنها به طور فعال از طریق سرور Discord و GitHub خود مشارکت جامعه را دعوت می کنند.
DIA با تمرکز آشکار بر کیفیت بیان ، تکرارپذیری و دسترسی آزاد ، صدای جدیدی را به چشم انداز مدل های گفتار تولیدی اضافه می کند.
ارسال پاسخ