برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
NVIDIA به لطف بازار سهام با توجه به اینکه چقدر تقاضا برای واحدهای پردازش گرافیکی (GPU) وجود دارد ، به یکی از با ارزش ترین شرکت های جهان تبدیل شده است ، تراشه های قدرتمند Nvidia باعث می شود که برای ارائه گرافیک در بازی های ویدیویی استفاده شود ، اما همچنین ، به طور فزاینده ای آموزش می دهد.
اما NVIDIA بسیار بیشتر از ساخت سخت افزار ، البته و نرم افزار برای اجرای آن است. همانطور که دوران هوش مصنوعی تولید می کند ، شرکت مستقر در سانتا کلارا نیز به طور پیوسته بیشتر و بیشتر از مدل های هوش مصنوعی خود را آزاد می کند-عمدتا منبع باز و رایگان برای محققان و توسعه دهندگان برای گرفتن ، بارگیری و استفاده از آنها به صورت تجاری-و آخرین مورد در میان آنها ، Parakeet-TDT-0.6b-V2 ، یک مدل تشخیص گفتار اتوماتیک (ASR) است که در مورد Words of Heghing That the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Words the Wordshing that that that that that that that that that that that the words “60 دقیقه صدا را در 1 ثانیه رونویسی کنید (ایموجی های دمیده شده).”
این نسل جدید مدل Parakeet Nvidia است که برای اولین بار در ژانویه سال 2024 رونمایی شد و دوباره در آوریل همان سال به روز شد ، اما این نسخه دو بسیار قدرتمند است ، در حال حاضر در صدر تابلوی باز Hugging ASR با متوسط ”نرخ خطای کلمه” قرار دارد (زمان مدل به طور نادرست یک کلمه گفتاری را رونویسی می کند) فقط 6.05 ٪ (از 100).
برای چشم انداز آن ، به مدل های رونویسی اختصاصی مانند GPT-4O-Transcrib (Openai’s GPT-4O (با 2.46 ٪ در انگلیسی) و یازده (3.3 ٪) نزدیک می شود.
و این همه اینها را ارائه می دهد در حالی که آزادانه تحت مجوز تجاری CC CC-BY-4.0 خلاق تجاری در دسترس است و آن را به یک پیشنهاد جذاب برای شرکت های تجاری و توسعه دهندگان ایندی که به دنبال ایجاد خدمات تشخیص گفتار و رونویسی در برنامه های پرداخت شده خود هستند ، تبدیل می کند.
عملکرد و معیار ایستاده
این مدل دارای 600 میلیون پارامتر است و ترکیبی از معماری رمزگذار FastConformer و TDT را به دست می آورد.
این امکان وجود دارد که فقط یک ثانیه یک ساعت صوتی را رونویسی کند ، مشروط بر اینکه در سخت افزار شیار GPU NVIDIA اجرا شود.
معیار عملکرد در RTFX (ضریب زمان واقعی) 3386.02 با اندازه دسته ای 128 اندازه گیری می شود و آن را در بالای معیارهای فعلی ASR که توسط بغل کردن صورت نگهداری می شود ، قرار می دهد.
از موارد و در دسترس بودن استفاده کنید
Parakeet-TDT-0.6B-V2 در سطح جهانی منتشر شد ، با هدف توسعه دهندگان ، محققان و تیم های صنعت در حال ساخت برنامه هایی از قبیل خدمات رونویسی ، دستیاران صوتی ، ژنراتورهای زیرنویس و سیستم عامل های هوش مصنوعی مکالمه است.
این مدل از نگارشی ، سرمایه گذاری و زمان بندی دقیق در سطح کلمه پشتیبانی می کند و یک بسته رونویسی کامل را برای طیف گسترده ای از نیازهای گفتار به متن ارائه می دهد.
دسترسی و استقرار
توسعه دهندگان می توانند این مدل را با استفاده از ابزار NEMO NVIDIA مستقر کنند. فرآیند تنظیم با پایتون و پیوتورچ سازگار است و از این مدل می توان برای کارهای خاص دامنه به طور مستقیم یا تنظیم شده استفاده کرد.
مجوز منبع باز (CC-BY-4.0) همچنین امکان استفاده تجاری را فراهم می کند و آن را برای استارتاپ ها و شرکت ها به طور یکسان جذاب می کند.
آموزش داده ها و توسعه مدل
Parakeet-TDT-0.6b-V2 بر روی یک جسد متنوع و در مقیاس بزرگ به نام مجموعه داده گرانشی آموزش داده شد. این شامل حدود 120،000 ساعت صوتی انگلیسی ، متشکل از 10،000 ساعت داده های با کیفیت بالا و با کیفیت بالا و 110،000 ساعت گفتار شبه برچسب است.
منابع از مجموعه داده های مشهور مانند Librispeech و Mozilla Common Voice گرفته تا YouTube-Commons و Librilight متغیر است.
NVIDIA قصد دارد پس از ارائه آن در Interspeech 2025 ، مجموعه داده های انبار را به صورت عمومی در دسترس قرار دهد.
ارزیابی و استحکام
این مدل در چندین معیار ASR به زبان انگلیسی ، از جمله AMI ، Assings22 ، GigAspeech و SPGISPEECE مورد بررسی قرار گرفت و عملکرد عمومی سازی شدیدی را نشان داد. در شرایط نویز متنوعی قوی است و حتی با فرمت های صوتی به سبک تلفنی عملکرد خوبی دارد و تنها تخریب متوسط در نسبت سیگنال به نویز پایین تر است.
سازگاری و کارآیی سخت افزار
Parakeet-TDT-0.6b-V2 برای محیط های GPU NVIDIA بهینه شده و از سخت افزاری مانند تخته های A100 ، H100 ، T4 و V100 پشتیبانی می کند.
در حالی که GPU های سطح بالا عملکرد را به حداکثر می رسانند ، این مدل هنوز هم می تواند روی سیستم هایی با حداقل 2 گیگابایت رم بارگیری شود و امکان سناریوهای استقرار گسترده تری را فراهم می کند.
ملاحظات اخلاقی و استفاده مسئولانه
Nvidia خاطرنشان می کند که این مدل بدون استفاده از داده های شخصی تهیه شده و به چارچوب مسئول AI آن پایبند است.
اگرچه هیچ اقدامات خاصی برای کاهش تعصب جمعیت شناختی انجام نشده است ، این مدل استانداردهای کیفیت داخلی را تصویب کرده و مستندات مفصلی را در مورد فرآیند آموزش آن ، اثبات مجموعه داده ها و انطباق حریم خصوصی شامل می کند.
این نسخه توجه به یادگیری ماشین و جوامع منبع باز ، به ویژه پس از برجسته شدن عمومی در رسانه های اجتماعی ، توجه را به خود جلب کرد. مفسران به توانایی مدل در بهتر از گزینه های تجاری ASR در حالی که منبع باز کاملاً باز و قابل استفاده تجاری هستند ، اشاره کردند.
توسعه دهندگان علاقه مند به تلاش این مدل می توانند از طریق بغل کردن صورت یا از طریق ابزار NEMO NVIDIA به آن دسترسی پیدا کنند. دستورالعمل های نصب ، اسکریپت های نمایشی و راهنمایی ادغام به راحتی برای تسهیل آزمایش و استقرار در دسترس است.
ارسال پاسخ