NVIDIA رونویسی کاملاً منبع باز مدل AI Parakeet-TDT-0.6b-V2 را در بغل کردن صورت راه اندازی می کند

سوگل سیدصالحی اردیبهشت 16, 1404

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

NVIDIA به لطف بازار سهام با توجه به اینکه چقدر تقاضا برای واحدهای پردازش گرافیکی (GPU) وجود دارد ، به یکی از با ارزش ترین شرکت های جهان تبدیل شده است ، تراشه های قدرتمند Nvidia باعث می شود که برای ارائه گرافیک در بازی های ویدیویی استفاده شود ، اما همچنین ، به طور فزاینده ای آموزش می دهد.

اما NVIDIA بسیار بیشتر از ساخت سخت افزار ، البته و نرم افزار برای اجرای آن است. همانطور که دوران هوش مصنوعی تولید می کند ، شرکت مستقر در سانتا کلارا نیز به طور پیوسته بیشتر و بیشتر از مدل های هوش مصنوعی خود را آزاد می کند-عمدتا منبع باز و رایگان برای محققان و توسعه دهندگان برای گرفتن ، بارگیری و استفاده از آنها به صورت تجاری-و آخرین مورد در میان آنها ، Parakeet-TDT-0.6b-V2 ، یک مدل تشخیص گفتار اتوماتیک (ASR) است که در مورد Words of Heghing That the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Wordshing that that that that that that that that that that that the words “60 دقیقه صدا را در 1 ثانیه رونویسی کنید (ایموجی های دمیده شده).”

این نسل جدید مدل Parakeet Nvidia است که برای اولین بار در ژانویه سال 2024 رونمایی شد و دوباره در آوریل همان سال به روز شد ، اما این نسخه دو بسیار قدرتمند است ، در حال حاضر در صدر تابلوی باز Hugging ASR با متوسط ”نرخ خطای کلمه” قرار دارد (زمان مدل به طور نادرست یک کلمه گفتاری را رونویسی می کند) فقط 6.05 ٪ (از 100).

برای چشم انداز آن ، به مدل های رونویسی اختصاصی مانند GPT-4O-Transcrib (Openai’s GPT-4O (با 2.46 ٪ در انگلیسی) و یازده (3.3 ٪) نزدیک می شود.

و این همه اینها را ارائه می دهد در حالی که آزادانه تحت مجوز تجاری CC CC-BY-4.0 خلاق تجاری در دسترس است و آن را به یک پیشنهاد جذاب برای شرکت های تجاری و توسعه دهندگان ایندی که به دنبال ایجاد خدمات تشخیص گفتار و رونویسی در برنامه های پرداخت شده خود هستند ، تبدیل می کند.

عملکرد و معیار ایستاده

این مدل دارای 600 میلیون پارامتر است و ترکیبی از معماری رمزگذار FastConformer و TDT را به دست می آورد.

این امکان وجود دارد که فقط یک ثانیه یک ساعت صوتی را رونویسی کند ، مشروط بر اینکه در سخت افزار شیار GPU NVIDIA اجرا شود.

معیار عملکرد در RTFX (ضریب زمان واقعی) 3386.02 با اندازه دسته ای 128 اندازه گیری می شود و آن را در بالای معیارهای فعلی ASR که توسط بغل کردن صورت نگهداری می شود ، قرار می دهد.

از موارد و در دسترس بودن استفاده کنید

Parakeet-TDT-0.6B-V2 در سطح جهانی منتشر شد ، با هدف توسعه دهندگان ، محققان و تیم های صنعت در حال ساخت برنامه هایی از قبیل خدمات رونویسی ، دستیاران صوتی ، ژنراتورهای زیرنویس و سیستم عامل های هوش مصنوعی مکالمه است.

این مدل از نگارشی ، سرمایه گذاری و زمان بندی دقیق در سطح کلمه پشتیبانی می کند و یک بسته رونویسی کامل را برای طیف گسترده ای از نیازهای گفتار به متن ارائه می دهد.

دسترسی و استقرار

توسعه دهندگان می توانند این مدل را با استفاده از ابزار NEMO NVIDIA مستقر کنند. فرآیند تنظیم با پایتون و پیوتورچ سازگار است و از این مدل می توان برای کارهای خاص دامنه به طور مستقیم یا تنظیم شده استفاده کرد.

مجوز منبع باز (CC-BY-4.0) همچنین امکان استفاده تجاری را فراهم می کند و آن را برای استارتاپ ها و شرکت ها به طور یکسان جذاب می کند.

آموزش داده ها و توسعه مدل

Parakeet-TDT-0.6b-V2 بر روی یک جسد متنوع و در مقیاس بزرگ به نام مجموعه داده گرانشی آموزش داده شد. این شامل حدود 120،000 ساعت صوتی انگلیسی ، متشکل از 10،000 ساعت داده های با کیفیت بالا و با کیفیت بالا و 110،000 ساعت گفتار شبه برچسب است.

منابع از مجموعه داده های مشهور مانند Librispeech و Mozilla Common Voice گرفته تا YouTube-Commons و Librilight متغیر است.

NVIDIA قصد دارد پس از ارائه آن در Interspeech 2025 ، مجموعه داده های انبار را به صورت عمومی در دسترس قرار دهد.

ارزیابی و استحکام

این مدل در چندین معیار ASR به زبان انگلیسی ، از جمله AMI ، Assings22 ، GigAspeech و SPGISPEECE مورد بررسی قرار گرفت و عملکرد عمومی سازی شدیدی را نشان داد. در شرایط نویز متنوعی قوی است و حتی با فرمت های صوتی به سبک تلفنی عملکرد خوبی دارد و تنها تخریب متوسط در نسبت سیگنال به نویز پایین تر است.

سازگاری و کارآیی سخت افزار

Parakeet-TDT-0.6b-V2 برای محیط های GPU NVIDIA بهینه شده و از سخت افزاری مانند تخته های A100 ، H100 ، T4 و V100 پشتیبانی می کند.

در حالی که GPU های سطح بالا عملکرد را به حداکثر می رسانند ، این مدل هنوز هم می تواند روی سیستم هایی با حداقل 2 گیگابایت رم بارگیری شود و امکان سناریوهای استقرار گسترده تری را فراهم می کند.

ملاحظات اخلاقی و استفاده مسئولانه

Nvidia خاطرنشان می کند که این مدل بدون استفاده از داده های شخصی تهیه شده و به چارچوب مسئول AI آن پایبند است.

اگرچه هیچ اقدامات خاصی برای کاهش تعصب جمعیت شناختی انجام نشده است ، این مدل استانداردهای کیفیت داخلی را تصویب کرده و مستندات مفصلی را در مورد فرآیند آموزش آن ، اثبات مجموعه داده ها و انطباق حریم خصوصی شامل می کند.

این نسخه توجه به یادگیری ماشین و جوامع منبع باز ، به ویژه پس از برجسته شدن عمومی در رسانه های اجتماعی ، توجه را به خود جلب کرد. مفسران به توانایی مدل در بهتر از گزینه های تجاری ASR در حالی که منبع باز کاملاً باز و قابل استفاده تجاری هستند ، اشاره کردند.

توسعه دهندگان علاقه مند به تلاش این مدل می توانند از طریق بغل کردن صورت یا از طریق ابزار NEMO NVIDIA به آن دسترسی پیدا کنند. دستورالعمل های نصب ، اسکریپت های نمایشی و راهنمایی ادغام به راحتی برای تسهیل آزمایش و استقرار در دسترس است.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد

سوگل سیدصالحی اردیبهشت 16, 1404

NVIDIA رونویسی کاملاً منبع باز مدل AI Parakeet-TDT-0.6b-V2 را در بغل کردن صورت راه اندازی می کند

عملکرد و معیار ایستاده

از موارد و در دسترس بودن استفاده کنید

دسترسی و استقرار

آموزش داده ها و توسعه مدل

ارزیابی و استحکام

سازگاری و کارآیی سخت افزار

ملاحظات اخلاقی و استفاده مسئولانه

جو روگان در حالی که دانشمند سیا تعداد دقیقی از UFO های تصادف شده ایالات متحده را فاش می کند ، از ترس ترک کرد

هشدار فوری خفگی برای صبحانه مورد علاقه صبحانه که ممکن است حاوی تکه های پلاستیکی باشد

سامسونگ با یک رایانه لوحی جدید ترکیب نسخه تاکتیکی خود را گسترش می دهد

هشدار به همه کاربران 1.8 میلیارد Gmail نسبت به هک رمز عبور: “شما هفت روز فرصت دارید”

TSMC برای تولید نیمه هادی 2NM خود انتظار رکورد از اپل و سایر مشتریان را دارد

Playtron برای بازی کردن ، اشتراک ها و پاداش ها ، بازی stablecoin دلار را برای بازی می چرخاند

سرویس اصلی مایکروسافت که توسط افراد 2 میلیارد

داده ها نشان می دهد که سری Galaxy S25 بهترین عملکرد را در شبکه 5G T-Mobile انجام می دهد

از ایده تا اجرا در طراحی موکب و چایخانه هیئت مراسم محرم

Boots Gen Z را با محدوده مکمل های الهام گرفته از Tiktok هدف قرار می دهد که شامل مواد “روند” از جمله Mane Lion’s ، Ashwagandha و Sea Moss است

نشت OnePlus Nord 5 ارتقاء گسترده نسبت به سلف خود را تأیید می کند

پلت فرم “تجارت هوشمند” ویزا را پرتاب می کند ، و به نمایندگان هوش مصنوعی اجازه می دهد کارت شما را بکشید – به طور دقیق ، می گوید

T-Mobile هزینه ای را از بین می برد ، اما نه برای همه و نه برای همه

بازی های نیویورک تایمز برای جشن گرفتن برنده های روزانه ، تابلوی رهبری را راه اندازی می کند

هشدار فوری در مورد کلاهبرداری واتساپ “سلام مادر”: کلاهبرداران از هوش مصنوعی برای تقلید از صدای کودکان برای سرقت میلیون ها پوند از والدین مظنون استفاده می کنند

کنفرانس آینده WWDC 2025 اپل با دقت بیشتری از همیشه روبرو خواهد شد – به همین دلیل است

پیدا کردن طرفداران نمو به عنوان حقیقت مزاحم وحشتناک که همه چیز را در مورد فیلم تغییر می دهد آشکار می شود

آیفون تاشو: اپل یک تاکتیک بازاریابی ویژه در فروشگاه دارد

با بازگشت مشک ، کارشناسان می گویند کاهش Doge به خدمات دولت آسیب رسانده است | الون مس

IQOO BUDS 1i با 50 ساعت عمر باتری و جلوه های صوتی استریو Deepx 3.0 که در اندونزی راه اندازی شده است