برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
آمازون بیشتر به عنوان یک غول تجارت الکترونیکی شناخته می شود و سپس در جایی شاید کمی بیشتر از لیست پیشنهادهای قابل توجه ، محصول دستیار صوتی Alexa AI آن باشد که ماه گذشته به لطف بخشی از آمازون نوا و انسان شناسی سرمایه گذاری آمازون به روزرسانی بزرگ اطلاعاتی را کسب کرد.
اکنون الکسا مجبور است فضایی را برای یک خواهر و برادر جدید Amazon Voice Ai ایجاد کند: امروز این شرکت در حال معرفی Amazon Nova Sonic است ، یک مدل بنیادی جدید که به توسعه دهندگان برنامه شخص ثالث اجازه می دهد تا با استفاده از بستر های وب آمازون ، با استفاده از بستر وب آمازون ، سازگار با صدا در زمان واقعی ، طبیعت گرایانه و مکالمه ای باشند.
اکنون از طریق یک رابط برنامه نویسی برنامه کاربردی جریان دو جهته (API) در دسترس است. و در واقع ، آمازون در حال حاضر بخش هایی از آن – رمزگذار گفتار را ارائه می دهد که نمایندگی و سینت سایزر گفتار را ارائه می دهد – در مدل جدید Alexa ، Alexa+.
سخنگوی ما به ما گفت: “این رویکرد به ما این امکان را می دهد تا مزایای فن آوری های گفتار خود را به طور همزمان به موارد مختلف استفاده کنیم و در حالی که همچنان به تکامل هر دو سیستم بر اساس بازخورد مشتری و پیشرفت های فناوری ادامه می دهیم.”
موارد استفاده آشکار شامل پشتیبانی و خدمات مشتری ، راهنمایی ، بازیابی اطلاعات و سرگرمی است.
یک رویکرد متحد
نوا سونیک به یک چالش کلیدی در AI AI رسیدگی می کند: تکه تکه شدن فناوری ها.
به طور سنتی ، بنا به گفته روهیت پراساد ، SVP و دانشمند سر دانشمند هوش مصنوعی (AGI) در آمازون ، در مصاحبه ویدیویی با VentureBeat دیروز با استفاده از سرویس ویدیویی Chime آمازون ، به طور سنتی ، ایجاد رابط های صوتی نیاز به ترکیب مدل های جداگانه برای تشخیص گفتار ، پردازش زبان و سنتز گفتار دارد.
این پیچیدگی اغلب منجر به تعامل رباتیک ، غیر طبیعی و افزایش سربار توسعه می شود.
اکنون ، Sonic با ترکیب هر سه نوع مدل مجزا در یک ، به دنبال پیشرفت در این وضعیت است.
Prasad نوآوری اصلی مدل را توضیح داد: “نوا سونیک سه مدل سنتی جداگانه-گفتار به متن ، درک متن و متن به گفتار-را گرد هم می آورد و به یک سیستم یکپارچه می پردازد که می تواند نه تنها” چه چیزی “بلکه” چگونه “ارتباط را الگوبرداری کند.”
با حفظ زمینه آکوستیک – مانند لحن ، cadence و سبک – Sonic Nova به حفظ تفاوت های ظریف مکالمه انسانی کمک می کند.
شناخت پیچیدگی ها و سوالات مکالمات صوتی دو طرفه
یکی از قابلیت های تعریف کننده نوا سونیک توانایی آن در انجام مکالمات زنده و دو طرفه است. این تشخیص می دهد که کاربران هنگام مکث ، تردید یا قطع – رفتارهای مختلف در گفتار انسان – و در حالی که زمینه را حفظ می کنند ، روان پاسخ می دهند.
پراساد گفت: “پیشرفت واقعی در اینجا تعامل صوتی در زمان واقعی ، تعاملی و کم تأخیر است ، به این معنی که می توانید حقایان میانی هوش مصنوعی را قطع کنید ، و همچنان زمینه را حفظ کرده و به طور منسجم پاسخ می دهد.” این ویژگی به ویژه در سناریوهایی مانند خدمات به مشتری ، جایی که پاسخگویی و سازگاری بسیار مهم است ، اهمیت دارد.
نوا سونیک همچنین برای ادغام یکپارچه با سایر سیستم ها طراحی شده است. این به طور خودکار رونوشت های ورودی گفتاری را تولید می کند ، که می تواند برای ایجاد API یا تعامل با ابزارهای اختصاصی استفاده شود. این امر به شرکت ها امکان می دهد تا نمایندگان هوش مصنوعی را بسازند که بتوانند کارهایی مانند رزرو قرار ملاقات ، بازیابی اطلاعات زنده یا پاسخ دادن به سوالات پیچیده مشتری را انجام دهند.
Prasad گفت: “شما می توانید از Nova Sonic از طریق آمازون Bedrock استفاده کنید و آن را با هر ابزار یا منابع اختصاصی داده ، حتی موارد بصری وصل کنید ، تا زمانی که به عنوان API های قابل تماس بسته بندی شوند.” این انعطاف پذیری باعث می شود مدل برای طیف گسترده ای از صنایع ، از آموزش و مسافرت گرفته تا عملیات و سرگرمی های سازمانی مناسب باشد.
عملکرد معیار و مقایسه صنعت
نوا سونیک در برابر سایر مدل های صوتی در زمان واقعی ، از جمله GPT-4O OpenAi و Gemini Flash 2.0 Google ، معیار قرار گرفته است. در مجموعه داده های ارزیابی مشترک ، این امتیاز 69.7 ٪ برد نسبت به Gemini Flash 2.0 و 51.0 ٪ برد نسبت به GPT-4O را برای مکالمات تک چرخش انگلیسی آمریکایی با استفاده از صدای مردانه کسب کرد. دستاوردهای مشابه با صدای زنانه و انگلیسی انگلیسی دیده می شد.
پراساد بر عملکرد قوی نوا سونیک در بازارهای اصلی زبان خود تأکید کرد: “نوا سونیک در حال حاضر بهترین کلاس در ایالات متحده و انگلیسی انگلیسی است ، حتی در هر دو طبیعی بودن مکالمه و دقت از GPT-4O در زمان واقعی نیز بهتر است.” وی افزود: “به بهترین دانش ما ، فقط دو مدل دیگر-GPT-4O در زمان واقعی و نوعی از GPT-4O MINI-به آنچه نوا سونیک در ترکیب درک گفتار و نسل در زمان واقعی انجام می دهد ، نزدیک است. این فضا هنوز خیلی زود و بسیار سخت است.”
قابلیت های چند زبانه و استفاده از محیط پر سر و صدا
در شناخت گفتار ، نوا سونیک نیز در شرایط چند زبانه و واقعی در دنیای واقعی برتری دارد. این یک میزان خطای کلمه (WER) 4.2 ٪ در معیار چند زبانه Librispeech ، از GPT-4O که بیش از 36 ٪ در انگلیسی ، فرانسوی ، آلمانی ، ایتالیایی و اسپانیایی رونویسی می کند ، ثبت کرد. در محیط های پر سر و صدا ، چند بلندگو (اندازه گیری شده با استفاده از معیار AMI) ، نوا سونیک پیشرفت 46.7 ٪ در WER را نسبت به رونویسی GPT-4O نشان داد.
صداهای بیانی و گسترش زبان
در حال حاضر ، این مدل از چندین صدای بیانی ، مردانه و زنانه ، به زبان انگلیسی و انگلیسی پشتیبانی می کند. آمازون خاطرنشان کرد: لهجه ها و زبان های اضافی در حال توسعه هستند و در به روزرسانی های آینده منتشر می شوند.
تأخیر کم و هزینه سازگار با شرکت
سرعت و هزینه نیز بخشی از تجدید نظر است. معیارهای شخص ثالث نشان می دهد نوا سونیک تأخیر مشتری 1.09 ثانیه را در مقایسه با 1.18 ثانیه برای GPT-4O OpenAI و 1.41 ثانیه برای Gemini Flash 2.0 Google ارائه می دهد.
از دیدگاه قیمت گذاری ، آمازون نوا سونیک را به عنوان یک راه حل آماده سازمانی قرار می دهد. پراساد گفت: “ما تقریباً 80 ٪ ارزان تر از GPT-4O در زمان واقعی هستیم و عملکرد برتر قیمت در حال طنین انداز با شرکت هایی است که از آزمایش به سمت استقرار حرکت می کنند.”
فرزندخواندگی زودهنگام در بخش ها
به گفته آمازون ، شرکت ها در بخش های مختلف از قبل استفاده یا آزمایش نوا صوتی را آغاز کرده اند.
ASAPP در حال استفاده از این فناوری برای بهینه سازی گردش کار مرکز تماس ، ستایش از دقت و رسیدگی به گفتگوی طبیعی آن است.
آموزش اول (EF) از این مدل برای پشتیبانی از زبان آموزان با بازخورد تلفظ در زمان واقعی ، به ویژه برای گویندگان غیر بومی با لهجه های متنوع استفاده می کند.
آمار ارائه دهنده داده های ورزشی در حال استفاده از تأخیر کم نوا سونیک و تنظیم ساده در تعامل سریع و غنی از داده ها در پلت فرم چت OPTA AI است.
مسئولیت هوش مصنوعی و تعهد ایمنی
در کنار عملکرد و هزینه ، آمازون تعهد خود را برای توسعه مسئولیت پذیری هوش مصنوعی برجسته می کند. خانواده Nova از مدل ها شامل حفاظت های داخلی است و توسط کارتهای خدمات AWS AI پشتیبانی می شود که موارد استفاده در نظر گرفته شده ، محدودیت های احتمالی و دستورالعمل های اخلاقی را بیان می کند.
Prasad تأکید کرد که تمرکز آمازون بر اعتماد و ایمنی: “اعتماد برای ما مهم است – توسعه دهندگان می توانند شخصیت را در حد مجاز تنظیم کنند ، اما ما برای جلوگیری از کلون سازی صوتی یا تقلید ناخواسته ، نگهبان های قوی قرار داده ایم.” وی افزود: “ما برای از بین بردن توهم و رانش صدا بسیار سخت تلاش می کنیم. نوار ما برای انتشار بسیار زیاد است زیرا تولید گفتار باید قابل اعتماد باشد.”
آمازون نوا سونیک اکنون به طور کلی از طریق آمازون Bedrock در دسترس است. توسعه دهندگان و بنگاه های علاقه مند به کاوش در این مدل می توانند با مراجعه به https://aws.amazon.com/nova/ شروع به کار کنند.
ارسال پاسخ