安全研究機(jī)構(gòu)Group-IB詳細(xì)分析了AI語(yǔ)音克隆詐騙的實(shí)施流程:攻擊者首先收集目標(biāo)人物僅需3秒的語(yǔ)音樣本,利用AI語(yǔ)音合成引擎生成偽造語(yǔ)音,配合號(hào)碼偽裝技術(shù)發(fā)起詐騙電話。攻擊可采用預(yù)錄腳本或?qū)崟r(shí)語(yǔ)音轉(zhuǎn)換,冒充親屬、上司等緊急求助。研究顯示此類(lèi)攻擊易于規(guī);瘡(fù)制且難以識(shí)別,建議采用預(yù)設(shè)暗號(hào)驗(yàn)證和回?fù)艽_認(rèn)等雙重防護(hù)措施。
微軟升級(jí)了Azure AI Speech服務(wù),用戶(hù)僅需幾秒鐘的語(yǔ)音樣本即可快速生成逼真的語(yǔ)音復(fù)制品。該個(gè)人語(yǔ)音功能于2024年5月21日正式發(fā)布,采用名為"DragonV2.1Neural"的零樣本文本轉(zhuǎn)語(yǔ)音模型,支持100多種語(yǔ)言。微軟表示新版本在語(yǔ)音自然度、韻律穩(wěn)定性和發(fā)音準(zhǔn)確性方面都有顯著提升,可用于定制聊天機(jī)器人語(yǔ)音、視頻配音等應(yīng)用。盡管微軟要求用戶(hù)遵守使用政策并獲得原說(shuō)話者同意,但該技術(shù)仍可能被惡意使用。
Groq 與 PlayAI 宣布合作,通過(guò) Groq 的高速推理平臺(tái)推出先進(jìn)的文本轉(zhuǎn)語(yǔ)音模型 Dialog。這一合作結(jié)合了 PlayAI 在語(yǔ)音 AI 方面的專(zhuān)業(yè)知識(shí)和 Groq 的專(zhuān)業(yè)處理基礎(chǔ)設(shè)施,創(chuàng)造出了據(jù)稱(chēng)是目前最自然、響應(yīng)最快的文本轉(zhuǎn)語(yǔ)音系統(tǒng)之一。該系統(tǒng)不僅支持英語(yǔ)和阿拉伯語(yǔ),還采用了創(chuàng)新的"自適應(yīng)語(yǔ)音上下文器"技術(shù),能夠?qū)崿F(xiàn)更自然的對(duì)話流。
Google 宣布將其高清語(yǔ)音接口 Chirp 3 添加到 Vertex AI 開(kāi)發(fā)平臺(tái)。Chirp 3 支持 31 種語(yǔ)言的 8 種新聲音,可用于構(gòu)建語(yǔ)音助手、創(chuàng)建有聲讀物等。Google 強(qiáng)調(diào) AI 發(fā)展是一場(chǎng)馬拉松,短期內(nèi)不會(huì)成為解決一切問(wèn)題的靈丹妙藥,但未來(lái)十年將帶來(lái)重大變革。
AI 公司 Sesame 開(kāi)源了支持其逼真語(yǔ)音助手 Maya 的基礎(chǔ)模型。這個(gè)名為 CSM-1B 的 10 億參數(shù)模型采用 Apache 2.0 許可證,可用于商業(yè)用途。該模型能從文本和音頻輸入生成"RVQ 音頻編碼",使用了 Meta 的 Llama 模型作為主干。Sesame 提醒開(kāi)發(fā)者謹(jǐn)慎使用,避免未經(jīng)同意復(fù)制他人聲音或制作虛假內(nèi)容。
消費(fèi)者報(bào)告研究發(fā)現(xiàn),六家提供人工智能語(yǔ)音克隆軟件的公司中,有四家未能提供有效的防濫用措施。這項(xiàng)技術(shù)雖有合法用途,但也容易被濫用于欺詐等非法行為。報(bào)告呼吁企業(yè)加強(qiáng)安全保障,并建議加強(qiáng)監(jiān)管以保護(hù)消費(fèi)者權(quán)益。
一段令人驚嘆又讓人不安的AI語(yǔ)音演示在網(wǎng)上引發(fā)熱議。2013年,斯派克·瓊斯的電影《她》描繪了一個(gè)人們與AI語(yǔ)音助手建立情感聯(lián)系的未來(lái)。近12年后,AI初創(chuàng)公司Sesame發(fā)布的新對(duì)話語(yǔ)音模型使這一虛構(gòu)的設(shè)想更接近現(xiàn)實(shí),許多用戶(hù)對(duì)此感到既著迷又不安。
Podcastle是一款播客錄制和編輯平臺(tái),現(xiàn)已推出名為Asyncflow v1.0的AI文本轉(zhuǎn)語(yǔ)音模型,并為開(kāi)發(fā)者提供API接口,方便其在應(yīng)用中直接集成該模型。新模型支持超過(guò)450種AI語(yǔ)音,能夠?yàn)槲谋具M(jìn)行朗讀。該公司表示,其技術(shù)和模型的訓(xùn)練及推理成本較低,使其在競(jìng)爭(zhēng)中具備優(yōu)勢(shì)。Podcastle的創(chuàng)始人Arto Yeritsyan表示,盡管開(kāi)發(fā)成本高昂,但得益于最近的大型語(yǔ)言模型進(jìn)展,Podcastle終于能夠在不需要大量數(shù)據(jù)的情況下構(gòu)建高質(zhì)量的語(yǔ)音模型。
人工智能初創(chuàng)公司Zyphra推出了兩款開(kāi)源文本轉(zhuǎn)語(yǔ)音模型,聲稱(chēng)只需5秒樣本音頻就能克隆聲音。測(cè)試顯示,使用不到30秒的錄音即可生成逼真效果。這項(xiàng)技術(shù)雖然存在濫用風(fēng)險(xiǎn),但也有積極應(yīng)用前景,如幫助失聲者重獲聲音。該模型采用開(kāi)源許可證發(fā)布,為語(yǔ)音合成領(lǐng)域帶來(lái)新的可能。
目前,虛擬制作行業(yè)發(fā)展已經(jīng)從以CG、語(yǔ)音合成的計(jì)算機(jī)技術(shù)為主的階段,經(jīng)歷5G、人工智能技術(shù)突破,到現(xiàn)在,進(jìn)入高速發(fā)展的新階段,虛擬制作的應(yīng)用領(lǐng)域逐步拓寬,全方面滲透進(jìn)入各個(gè)行業(yè)。