微軟升級了Azure AI Speech服務,用戶僅需幾秒鐘的語音樣本即可快速生成逼真的語音復制品。該個人語音功能于2024年5月21日正式發(fā)布,采用名為"DragonV2.1Neural"的零樣本文本轉(zhuǎn)語音模型,支持100多種語言。微軟表示新版本在語音自然度、韻律穩(wěn)定性和發(fā)音準確性方面都有顯著提升,可用于定制聊天機器人語音、視頻配音等應用。盡管微軟要求用戶遵守使用政策并獲得原說話者同意,但該技術(shù)仍可能被惡意使用。
aiOla 推出了一款名為 Jargonic 的新型自動語音識別模型,專為企業(yè)使用而設計。這個模型能夠處理專業(yè)術(shù)語、背景噪音和各種口音,無需大量再訓練或微調(diào)。Jargonic 采用獨特的關鍵詞識別系統(tǒng),可以零樣本適應企業(yè)特定詞匯。在多項基準測試中,Jargonic 在準確性和專業(yè)術(shù)語識別方面都優(yōu)于主要競爭對手。這款模型現(xiàn)已通過 API 向企業(yè)客戶開放使用。