موبایل

بغل کردن چهره FASTRTC را برای ساده کردن برنامه های صوتی و تصویری AI در زمان واقعی راه اندازی می کند

بغل کردن چهره FASTRTC را برای ساده کردن برنامه های صوتی و تصویری AI در زمان واقعی راه اندازی می کند
به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


Bugging Face ، استارتاپ هوش مصنوعی با ارزش بیش از 4 میلیارد دلار ، Fastrtc ، یک کتابخانه پایتون با منبع باز را معرفی کرده است که هنگام ساختن برنامه های صوتی و تصویری AI در زمان واقعی ، مانع اصلی توسعه دهندگان را برطرف می کند.

فردی بولتون ، یکی از سازندگان FASTRTC ، در اعلامیه ای در مورد X.com گفت: “ساختن برنامه های Webrtc و WebSocket در زمان واقعی ، درست در پایتون بسیار دشوار است.” “تاکنون.”

فناوری WEBRTC ارتباطات مستقیم مرورگر به مرورگر را برای اشتراک صوتی ، تصویری و داده ها بدون افزونه یا بارگیری امکان پذیر می کند. علیرغم ضروری بودن برای دستیاران صوتی مدرن و ابزارهای ویدیویی ، اجرای WeBRTC همچنان یک مهارت تخصصی است که بیشتر مهندسان یادگیری ماشین (ML) به سادگی از آن برخوردار نیستند.

The Voice Ai Gold Rush با موانع فنی خود ملاقات می کند

زمان بندی نمی تواند استراتژیک تر باشد. AI AI توجه و سرمایه بسیار زیادی را به خود جلب کرده است – Elevenlabs اخیراً 180 میلیون دلار بودجه تأمین کرده است ، در حالی که شرکت هایی مانند Kyutai ، Alibaba و Fixie.ai همه مدل های صوتی تخصصی را منتشر کرده اند.

با این حال ، قطع ارتباط بین این مدل های پیشرفته هوش مصنوعی و زیرساخت های فنی مورد نیاز برای استقرار آنها در برنامه های پاسخگو و در زمان واقعی ادامه دارد. همانطور که در بغل کردن چهره در پست وبلاگ خود ذکر شد ، “مهندسان ML ممکن است تجربه ای در زمینه فن آوری های لازم برای ساخت برنامه های کاربردی در زمان واقعی مانند Webrtc نداشته باشند.”

FASTRTC به این مشکل رسیدگی می کند ، با ویژگی های خودکار ، بخش های پیچیده ارتباطات در زمان واقعی را اداره می کند. این کتابخانه برای دسترسی به برنامه ، تشخیص صوتی ، قابلیت های نوبت دهی ، تست رابط ها و حتی تولید شماره تلفن موقت را ارائه می دهد.

از زیرساخت های پیچیده تا پنج خط کد

مزیت اصلی کتابخانه سادگی آن است. بنا بر گزارش ها ، توسعه دهندگان می توانند برنامه های صوتی اساسی در زمان واقعی را فقط در چند خط کد ایجاد کنند-تضاد چشمگیر با هفته های کار توسعه که قبلاً مورد نیاز بود.

این تغییر پیامدهای قابل توجهی برای مشاغل دارد. شرکت هایی که قبلاً به مهندسان تخصصی ارتباطات نیاز داشتند ، اکنون می توانند از توسعه دهندگان موجود پایتون خود برای ساختن ویژگی های صوتی و تصویری AI استفاده کنند.

در این اطلاعیه توضیح می دهد: “شما می توانید از هر API LLM/متن به گفتار/گفتار/گفتار به متن یا حتی یک مدل گفتار به گفتار استفاده کنید.” “ابزارهایی را که دوست دارید بیاورید-Fastrtc فقط لایه ارتباطی در زمان واقعی را کنترل می کند.”

موج آینده نوآوری صدا و فیلم

معرفی FASTRTC نقطه عطف در توسعه برنامه AI را نشان می دهد. این ابزار با از بین بردن یک مانع فنی قابل توجه ، امکاناتی را باز می کند که برای بسیاری از توسعه دهندگان نظری باقی مانده است.

این تأثیر می تواند به ویژه برای شرکت های کوچکتر و توسعه دهندگان مستقل معنی دار باشد. در حالی که غول های فنی مانند Google و OpenAI منابع مهندسی برای ساخت زیرساخت های ارتباطی در زمان واقعی دارند ، بیشتر سازمان ها این کار را نمی کنند. FASTRTC اساساً دسترسی به قابلیت هایی را که قبلاً برای کسانی که دارای تیم های تخصصی بودند رزرو می کرد.

“کتاب آشپزی” کتابخانه در حال حاضر برنامه های متنوعی را به نمایش می گذارد: چت های صوتی که توسط مدلهای مختلف زبان ، تشخیص شیء ویدیویی در زمان واقعی و تولید کد تعاملی از طریق دستورات صوتی انجام می شود.

آنچه که به ویژه قابل توجه است زمان بندی است. FASTRTC دقیقاً وارد می شود زیرا رابط های AI از تعامل مبتنی بر متن به سمت تجربیات طبیعی تر و چندمودالی دور می شوند. پیشرفته ترین سیستم های هوش مصنوعی امروزه می توانند متن ، تصاویر ، صوتی و تصویری را پردازش و تولید کنند-اما استفاده از این قابلیت ها در برنامه های پاسخگو و در زمان واقعی همچنان چالش برانگیز است.

FASTRTC با ایجاد شکاف بین مدل های AI و ارتباطات در زمان واقعی ، توسعه را آسان تر نمی کند-این امر به طور بالقوه تغییر گسترده تر به سمت تجربه های AI و فیلمبرداری با صدای اول و ویدئویی را تسریع می کند که احساس انسانی تر و کمتری دارند.

برای کاربران ، این می تواند به معنای رابط های طبیعی تر در بین برنامه ها باشد. برای مشاغل ، این به معنای اجرای سریعتر ویژگی هایی است که مشتریان آنها به طور فزاینده ای انتظار دارند.

در پایان ، FASTRTC به یک مشکل کلاسیک در فناوری پرداخته است: قابلیت های قدرتمند اغلب تا زمانی که برای توسعه دهندگان اصلی در دسترس نباشند ، بلااستفاده باقی می مانند. با ساده کردن آنچه که زمانی پیچیده بود ، بغل کردن چهره یکی از آخرین موانع اصلی را که بین مدلهای پیشرفته هوش مصنوعی امروز و برنامه های صوتی اول فردا ایستاده است ، برداشته است.

نوشته های مرتبط

Pixel Watch 2 با تخفیف 73 دلاری Walmart یک انتخاب وسوسه انگیز برای طرفداران Google است

سوگل سیدصالحی

Compact Google Pixel 9 Pro به قیمت جمعه سیاه خود در آمازون باز می گردد ، اما مدت طولانی نیست

سوگل سیدصالحی

تأخیر در انگلستان قصد دارد هوش مصنوعی را تنظیم کند زیرا وزرا به دنبال هماهنگی با دولت ترامپ | هوش مصنوعی (AI)

سوگل سیدصالحی

ارسال دیدگاه