کاتب مدل جدید گفتار به متن Elevellabs در اینجا با بالاترین میزان دقت تاکنون (96.7 ٪ برای انگلیسی)

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

Elevenlabs ، کلونینگ صوتی و هوش مصنوعی بسیار ارزشمند از فارغ التحصیلان سابق Palantir ، امروز Scrib V1 را راه اندازی کرد ، یک مدل جدید گفتار به متن که گفته می شود بالاترین دقت را در چندین زبان به دست می آورد. کاربران می توانند آن را در اینجا امتحان کنند.

طبق معیارهای این شرکت ، این امر از Google's Gemini 2.0 Flash ، Whisper V3 Openai و DeepGram Nova-3 در تبدیل دقیق گفتار گفتاری به متن در وب ، دستیابی به نرخ خطای رکورد جدید بهتر عمل می کند.

این شرکت ادعا می کند که کاتب در 99 زبان دقت رونویسی پیشرفته را ارائه می دهد ، از جمله عملکرد بهبود یافته در زبانهای قبلاً تحت نظارت مانند صربستان ، کانتونی و مالاییایی.

همانطور که Flavio Schneider ، Elevenlabs Lead Pressioner در X نوشت ، Scrib “هوشمندترین مدل درک صوتی” است که توسط Elevenlabs منتشر شده است.

اشنایدر در یک موضوع ادامه داد: “کاتب فقط رونویسی نمی کند – صدا را درک می کند.” “این می تواند رویدادهای غیر کلامی (مانند خنده ، جلوه های صوتی ، موسیقی و سر و صدای پس زمینه) را تشخیص داده و زمینه های صوتی طولانی را برای دیایریزاسیون دقیق ، حتی در چالش برانگیزترین محیط ها تجزیه و تحلیل کند.”

“دیارییزاسیون” نامی است که به روند جدا کردن بلندگوها با ویژگی های صوتی آنها در یک ضبط داده می شود.

در حقیقت ، مستندات ElevenLabs بیان می کند که کاتب می تواند 32 بلندگو مختلف را در همان پرونده صوتی تشخیص داده و جدا کند.

در حالی که Elevelabs هشدار می دهد که کاتب “بهترین استفاده از رونویسی با دقت بالا و نه رونویسی در زمان واقعی است” ، این شرکت همچنین قصد دارد به زودی نسخه کم تأخیر را معرفی کند و استفاده از آن را برای برنامه های زمان واقعی گسترش دهد.

پایین ترین نرخ خطای کلمه (WER)

کاتب برای رسیدگی به چالش های صوتی در دنیای واقعی با دقت طراحی شده است. با توجه به نتایج معیار از Fleurs و Common Voice ، کمترین نرخ خطای کلمه (WER) را برای بسیاری از زبانها ، از جمله ایتالیایی (98.7 ٪) و انگلیسی (96.7 ٪) ثبت می کند.

ویژگی های کلیدی عبارتند از:

دیارییزاسیون بلندگو برای تمایز بلندگوها در ضبط های چند بلندگو.
جدول زمانی سطح کلمه برای دقت رونویسی دقیق.
تشخیص وقایع غیر گفتاری ، مانند خنده و صداهای پس زمینه.
خروجی متن ساختار یافته برای ادغام یکپارچه از طریق API.

قیمت گذاری و در دسترس بودن

Scrib اکنون از طریق وب سایت ElevenLabs و API در دسترس است.

قیمت گذاری با 0.40 دلار در هر ساعت صوتی ورودی تعیین شده است که 50 ٪ تخفیف برای شش هفته آینده دارد. یک نسخه با تأخیر کم برای برنامه های کاربردی در زمان واقعی نیز در حال توسعه است.

معنی آن برای شرکت ها

برای تصمیم گیرندگان سازمانی ، کاتب ابزاری را برای رونویسی مقیاس پذیر و با دقت بالا ارائه می دهد و آن را برای صنایع متکی به اسناد خودکار ، رونویسی و دسترسی به محتوا مفید می کند.

توانایی این مدل برای رسیدگی به زبانهای متنوع با دقت بالا نیز به نفع مشاغل چند ملیتی ، شرکت های رسانه ای و برنامه های پشتیبانی مشتری است.

ساختار قیمت گذاری Scrib باعث می شود تا برای مشاغلی که به خدمات رونویسی با حجم بالا نیاز دارند ، رقابتی شود و ادغام مبتنی بر API آن امکان پذیرش یکپارچه در گردش کار شرکت را فراهم می کند.

علاوه بر این ، نسخه با تأخیر کم آینده می تواند کاتب را به عنوان گزینه ای مناسب برای ابزارهای ارتباطی در زمان واقعی قرار دهد.

در همان روز با مدل متضاد متن متضاد رقیب هیوم به گفتار اکتاو می آیند

زمان بندی همه چیز است ، و Elevenlabs تصمیم گرفتند که همان روز Rival Hume Ai Octave را رونمایی کنند ، یک مدل متن به گفتار با قدرت LLM که به کاربران امکان می دهد صداهای تولید شده AI را با احساسات قابل تنظیم تنظیم کنند.

این برنامه برای ایجاد محتوا ، از جمله کتابهای صوتی ، پادکست ها و صداگذاری بازی های ویدیویی طراحی شده است. بر خلاف سیستم های استاندارد TTS ، Octave زمینه را فراتر از جملات فردی در نظر می گیرد ، تنظیم لحن ، ریتم و کادس به صورت پویا به نظر می رسد طبیعی تر است.

هیوم AI اکتاو را به عنوان یک رقیب مستقیم در ارائه متن به گفتگوی یازدهم قرار می دهد ، و این نکته را برجسته می کند که قیمت اکتاو تقریباً نیمی از هزینه خدمات صوتی فعلی AI Elevenlabs است.

در حالی که کاتب و اکتاو عملکردهای مختلفی را ارائه می دهند ، توسعه آنها نشان دهنده رقابت رو به رشد در مدلهای صوتی محور AI است.

Elevenlabs در اولویت بندی گفتار دقیق و چند زبانه قرار دارد ، در حالی که هیوم هوش مصنوعی در حال پیشبرد گفتار بیانگر AI است.

برای شرکت ها ، این به معنای راه حل های تخصصی تر برای هر دو برنامه رونویسی و صوتی مصنوعی ، امکان تولید محتوای کارآمدتر ، ابزارهای درگیر مشتری و دسترسی است.

Scrib اکنون به صورت زنده است و Elevenlabs هفته آینده میزبان یک رویداد مجازی با تیم پشت توسعه خود است. جزئیات بیشتر ، معیارها و مستندات API در پست رسمی وبلاگ موجود است.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد