برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
استارتاپ او ، هیوم AI ، دو سال پیش از Stealth ظاهر شد و از آن زمان تاکنون چند میلیون و بودجه را بر اساس فناوری خود جمع آوری کرده است که باعث ایجاد صدای عاطفی هوش مصنوعی برای استفاده در برنامه های سازمانی می شود.
امروز ، این پیشنهادات خود را با یک الگوی جدید و گفتار جدید به نام “متن و موتور صوتی با قابلیت Omni” یا اکتاو برای کوتاه ، طراحی می کند ، برای تولید گفتاری زنده و عاطفی ظریف برای استفاده در اشکال مختلف طراحی شده است محتوا ، از کتابهای صوتی گرفته تا گفتگوی شخصیت های بازی ویدیویی از پیش تنظیم شده و فیلم/تلویزیون/فیلم.
هیوم ادعا می کند اکتاو اولین سیستم متن به گفتار است که از یک مدل بزرگ زبان (LLM) استفاده می شود نه تنها بر روی متن بلکه در نشانه های گفتار و احساسات ، این امکان را برای درک کلمات در متن و تنظیم لحن ، ریتم و cadence بر این اساس فراهم می کند-و که کاربر می تواند در سطح جمله با ارسال متن تنظیم کند.
آلن کاون ، هیوم گفت: “ما اولین LLM را برای متن به گفتار راه اندازی می کنیم-مدلی که کلمات را در متن درک می کند و احساسات درست ، ریتم ، کادو و تأکید را پیش بینی می کند و باعث می شود گفتار بیشتر از گذشته به نظر می رسد انسانی تر شود.” بنیانگذار و مدیرعامل AI ، در مصاحبه ویدیویی با VentureBeat.
قابلیت های اکتاو فراتر از تولید صدای اساسی است. این می تواند ویژگی ها و سبک های شخصیت را از یک فیلمنامه به تنهایی تفسیر کند و باعث تنظیم تورم های صوتی برای مطابقت با احساسات ضمنی می شود. اظهارات طعنه آمیز به طرز طعنه آمیز صحبت خواهد شد ، یک جمله وحشت زده فوری به نظر می رسد ، و یک راز زمزمه ای هم می شود – همه بدون نیاز به جهت صریح.
علاوه بر این ، اگر کاربر صدای تولید شده را دوست ندارد یا می خواهد آن را تنظیم کند ، می تواند با تایپ کردن یک دستورالعمل متن به اکتاو ، مانند “شادتر ، غمناک تر ، ناامید کننده ، عصبانی تر ، بیشتر از طریق زبان طبیعی این کار را انجام دهد. طعنه آمیز ، صادقانه تر ، “و غیره
کاون افزود: “شما می توانید یک شخصیت را مانند یک دهقان قرون وسطایی طعنه آمیز توصیف کنید و این مدل فوراً آن صدا را ایجاد می کند و بر اساس دستورالعمل های خود احساسات مانند عصبانیت ، غم و اندوه یا خوشبختی را تنظیم می کند.”
در حالی که نسخه فعلی بر گفتار انگلیسی زبان متمرکز است ، Octave همچنین از اسپانیایی پشتیبانی می کند و انتظار می رود در آینده نزدیک قابلیت های زبان خود را گسترش دهد.
متناسب با ایجاد محتوا
Octave برای سازندگان محتوا و تولید رسانه مناسب است و برنامه هایی را در کتابهای صوتی ، پادکست ها ، شخصیت های بازی ویدیویی و صداپیشه های ویدئویی ارائه می دهد.
کاون توضیح داد: “این مدل جدید برای متن به گفتار به صورت آفلاین طراحی شده است.
با این حال ، کاربر باید از طریق وب سایت Hume یا در صفحه پروژه های خود یا از طریق رابط برنامه نویسی برنامه (API) به آن دسترسی پیدا کند. مؤلفه “آفلاین” به این واقعیت اشاره دارد که این مدل برای تولید فایلهای صوتی گسسته طراحی شده است که می تواند به پروژه هایی مانند فیلم ها یا کتابهای صوتی اضافه شود. این برای ادامه مکالمه در زمان واقعی طراحی نشده است ، اگرچه از نظر تئوریک می تواند با لوله کشی در نمایش داده های متنی به وب سایت مجاز باشد.
API Hume به توسعه دهندگان این امکان را می دهد تا 50 درخواست مدل اکتاو جدید را در دقیقه ، با حداکثر طول متن 5000 کاراکتر و توضیحات در 1000 کاراکتر تشکیل دهند. هر درخواست می تواند تا پنج خروجی تولید کند و قالب های صوتی پشتیبانی شده شامل MP3 ، WAV و PCM است.
سری مدل های قبلی هیوم EVI امکان پخش ، زمان واقعی ، تعامل عقب و جلو را فراهم می کند و در دسترس باقی می ماند و همچنان توسعه خواهد یافت.
Hume AI یک مدل قیمت گذاری مبتنی بر اشتراك را با ردیف های مختلف از گزینه رایگان گرفته تا برنامه های سازنده ، Creator Pro و برنامه های سازمانی ارائه می دهد.
در اینجا یک شکست مختصر از پیشنهادات وجود دارد:
- رایگان (0 دلار در ماه) -10،000 کاراکتر متن به گفتار در هر ماه (10 دقیقه پوند) با صداهای سفارشی نامحدود.
- استارت (3 دلار در ماه) – 30،000 کاراکتر (30 دقیقه پوند) به علاوه پشتیبانی برای حداکثر 20 پروژه.
- خالق (10 دلار در ماه) -100000 کاراکتر (100 دقیقه پوند) ، قیمت گذاری مبتنی بر استفاده برای شخصیت های اضافی (0.20/1000 دلار) و پشتیبانی از 1000 پروژه.
- طرفدار (50 دلار در ماه) -500000 کاراکتر (500 دقیقه پوند) ، قیمت گذاری مبتنی بر استفاده پایین (0.15 دلار/1000 دلار) و پشتیبانی از 3000 پروژه.
- مقیاس (150 دلار در ماه) -2000،000 کاراکتر (2000 پوند) ، بیشتر قیمت گذاری مبتنی بر استفاده (0.13/1000 دلار) را کاهش داده و از 10،000 پروژه پشتیبانی می کند.
- تجارت (900 دلار در ماه) -10،000،000 کاراکتر (10،000 دقیقه پوند) ، حتی قیمت گذاری مبتنی بر استفاده پایین (0.10/1000 دلار) و پشتیبانی از 20،000 پروژه.
- شرکت (قیمت سفارشی) – استفاده نامحدود ، شرایط حقوقی سفارشی ، تضمین های امنیتی ، قیمت گذاری فله به میزان قابل توجهی تخفیف و پشتیبانی از اولویت.
درمجموع ، هیوم تأکید کرد که قیمت گذاری اکتاو خود تقریباً نیمی از هزینه رقابت های راه اندازی صوتی AI یازدهاب است که نشان دهنده رقابت شدید در فضای متن به گفتار است.
علاوه بر این ، هیوم AI یک مطالعه مقایسه کور با 180 رأی دهنده انسانی برای معیار اکتاو در برابر یازدهلااب انجام داد. نتایج نشان داد که اکتاو از نظر کیفیت صدا (6 /71 ٪ از آزمایشات) ، طبیعی بودن (51.7 ٪ آزمایشات) و اینکه چگونه گفتار با توصیفات صدای مورد نظر (57.7 ٪ آزمایشات) مطابقت دارد ، در 120 پیشبرد متنوع ترجیح داده شده است.
برای ارزیابی بیشتر عملکرد خود ، هیوم AI همچنین Expressive TTS Arena را راه اندازی کرده است ، یک معیار عمومی که برای آزمایش چگونگی عملکرد مدل های AI با گفتار طولانی تر و بیانگر طراحی شده است – منطقه ای که معیارهای TTS قبلی تا حد زیادی از آن غافل شده اند.
10s از تریلیون های توکن زبان
بر خلاف سیستم های سنتی متن به گفتار که به مجموعه داده های گفتار محدود متکی هستند ، Octave TTS بر روی LLM ساخته شده است که روی ده ها تریلیون نشانه زبان آموزش دیده است.
کاون گفت: “مدل های سنتی متن به گفتار بر روی داده های گفتار محدود آموزش دیده اند ، اما ما بر روی LLM ساخته شده است که روی ده ها تریلیون نشانه آموزش دیده است و این امکان را برای استدلال ، فکر کردن و استنباط احساسات از متن فراهم می کند.”
این مدل با استفاده از میلیون ها ساعت داده های گفتاری عمومی ، طولانی و مجموعه داده های اختصاصی هیوم AI از صداهای جدید که توسط شرکت کنندگان در نظرسنجی استفاده می شود ، آموزش داده شد.
کاون گفت: “ما داده هایی را از افرادی که خود را از طریق وب کم ضبط می کنند ، جمع آوری کردیم ، به طور طبیعی نسبت به فیلم ها واکنش نشان می دهیم ، داستان می گوییم و با دیگران از جمله دوستان و خانواده صحبت می کنیم تا طیف گسترده ای از عبارات عاطفی را ضبط کنند.”
این آموزش گسترده به مدل اجازه می دهد تا زمینه عاطفی را استنباط کند و از دستورالعمل های دقیق پیروی کند و صداهایی ایجاد کند که مطابق با توصیف ها و ویژگی های شخصیت خاص باشد.
این مدل ، که امروزه از طریق سکوی هیوم AI و API موجود است ، کنترل عاطفی در سطح جمله را ارائه می دهد ، با انعطاف پذیری در جملات.
کاون خاطرنشان کرد: “مدولاسیون صدا در سطح جمله کار می کند ، اما شما همچنین می توانید بخش هایی از یک جمله را تنظیم کنید و به مدل دستور می دهید تا احساسات ظریف مانند ناامیدی جزئی را که با طنز یا اغوا کننده مخلوط شده است ، منتقل کند.” این مدل همچنین زمینه را فراتر از جملات فردی در نظر می گیرد. وی توضیح داد: “بر خلاف مدل های سنتی که کلمه متن را به صورت کلمه پردازش می کنند ، مدل ما کل پاراگراف ها را در نظر می گیرد و زمینه را برای ارائه گفتار طبیعی تر و عاطفی دقیق تر می گیرد.”
صدای و محدودیت های شخصیت سازگار
Octave TTS صداهای شخصیت سازگار را در محتوای فرم طولانی حفظ می کند.
کاون گفت: “با استفاده از پلتفرم ما ، می توانید صداهای منحصر به فردی را برای هر شخصیت در یک کتاب صوتی-مانند یک اورک میانسال-ایجاد کنید و صدای آن شخصیت را در طول داستان حفظ کنید.”
این قابلیت توسط صفحه “پروژه های” هیوم AI پشتیبانی می شود ، که با استفاده از متن به صورت خودکار با استفاده از متن به طور خودکار در ضمن حفظ قوام شخصیت و متن در فصل ها ، محتوای طولانی مانند کتابهای صوتی را ارائه می دهد.
هیوم دارای نگهبانان فنی است که در وب سایت خود قرار دارد و API ممنوعیت ایجاد صدای واقعی کودکان و تقلید از افراد خاص است ، اما به غیر از این ، استفاده از طیف گسترده ای از محتوا و موضوع ، از جمله بالقوه غیر ایمن است. صحنه های کاری مانند آن در رمان های عاشقانه محبوب.
کاون توضیح داد: “ما به توسعه دهندگان آزادی می دهیم و به محتوا در طیف گسترده ای از تجربیات انسانی اجازه می دهیم ، اگرچه ما ایجاد صدای واقعی کودکان و تقلید از افراد خاص را محدود می کنیم.”
علاوه بر این ، Cowen گفت که این شرکت می تواند در صورت درخواست ، مانند ناشر کتاب کودکان ، که به دنبال ایجاد صدایی برای کتابهای صوتی کودکان است ، این نگهبانان را برای مشتریان خاص تنظیم کند.
علاوه بر این ، هیوم هوش مصنوعی در حال کار بر روی یک ویژگی کلونینگ صوتی آینده است که به کاربران این امکان را می دهد تا از 5 ثانیه صوتی صدا را تکرار کنند. این شرکت برای اطمینان از استفاده اخلاقی قبل از اینکه این ویژگی را به صورت عمومی از بین ببرد ، در حال توسعه است.
Octave TTS با ترکیب آگاهی از زمینه ، بیان عاطفی و سفارشی سازی شخصیت ، قصد دارد تا سازندگان محتوا را با کنترل و انعطاف پذیری بیشتر به سازندگان محتوا ارائه دهد و صداهایی را ارائه دهد که هم واقع گرایانه و هم از نظر عاطفی جذاب باشد.