好看的皮囊、有趣的靈魂,虛擬人:我都要!
在一個嬰兒呱呱墜地之前,他/她的胚胎在母體的四十周時間里,會先發(fā)育出大腦雛形,緊接著心臟開始跳動,直至四肢長成、五官成型;在開口叫出第一聲“媽媽”之前,他/她會用面部表情和肢體動作(主要是哭和笑)表達(dá)需求;通常情況下,他/她會在1-2歲學(xué)會說話和行走,然后在更往后的時間里接受教育,不斷拓展自己的知識體系和專業(yè)技能……
創(chuàng)造一個數(shù)字虛擬人,如同對以上這些“人類特征”進(jìn)行模塊化拆解和組裝的過程——他/她會擁有一個形象,會學(xué)會一種或多種語言,會用表情和肢體進(jìn)行表達(dá),會具備“一技之長”,也可能會被賦予特定的人設(shè)。
如果說,是細(xì)胞的分裂、生長和分化帶來了前一種變化;那么,讓后一種情況得以“照進(jìn)現(xiàn)實”的,無疑是計算機(jī)技術(shù)的發(fā)展、演化和躍遷。
越來越多的虛擬人正在加入并且開始影響人類的生活。畢業(yè)于清華大學(xué)的學(xué)霸華智冰,走在時尚尖端的Ayayi,混跡娛樂圈的洛天依,一夜爆紅的柳夜熙,還有被認(rèn)為是虛擬人技術(shù)天花板的財經(jīng)AI主播N小黑等等。
他們?nèi)?ldquo;聲形并茂”,當(dāng)然也各有所長。這種相通性和不同點,主要源自三個基本特征的“定位”差異,即——外觀、行為和思想。這三個特征的背后是大量技術(shù)棧的支撐,涉及眾多的領(lǐng)域,包括圖形識別、視覺技術(shù)、3D建模、CG渲染、動作捕捉、人工智能、計算機(jī)語音技術(shù)、自然語言處理等等。而一個虛擬人,一般情況下會由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等五個模塊構(gòu)成。(參考《2020年虛擬數(shù)字人發(fā)展白皮書》)
下面,我們將圍繞虛擬人的三個特征和五個模塊維度,拆解其制作過程中所需的技術(shù)與工具。
外觀:創(chuàng)建一副好看的“皮囊”
外觀形象的重要性在于,它是我們進(jìn)行印象刻畫和身份識別的最重要參照。所以在創(chuàng)造一個虛擬人時,第一步通常也需要先進(jìn)行形象設(shè)計和建模,然后再結(jié)合渲染引擎實現(xiàn)對人物模型的驅(qū)動。根據(jù)呈現(xiàn)形式,它有2D和3D兩大類,其中3D是目前也是往后虛擬人的主流形象。
3D人物形象的生成過程,涉及的一個核心技術(shù)是3D建模。它指的是利用三維制作軟件通過虛擬三維空間構(gòu)建出具有三維數(shù)據(jù)模型的過程,目前已經(jīng)在工業(yè)、電影等領(lǐng)域廣為使用,而早期虛擬人(主要用于工業(yè)電影)的構(gòu)建大多使用的也是這一技術(shù)。我們非常熟悉的《阿凡達(dá)》(Avatar)電影中的角色特效,主要就是基于3D建模+CG(計算機(jī)動畫)實現(xiàn)的。
但是,隨著近年來虛擬人制作需求量的增加,3D建模的缺點開始顯現(xiàn)出來。舉例來說,它生成的往往是一個靜態(tài)模型,在綁定關(guān)鍵點之后,需要借助真人(中之人)通過動作捕捉設(shè)備進(jìn)行形體、眼神、動作等的捕捉,然后才能進(jìn)行驅(qū)動和渲染——在虛擬人技術(shù)類別中,這被劃分為“真人驅(qū)動型”虛擬人。一般而言,它的生產(chǎn)周期更長,成本也比較高。
與之對應(yīng)的是“算法驅(qū)動型”虛擬人。它基于的是深度學(xué)習(xí)模型的三維場景表達(dá)和對應(yīng)的神經(jīng)渲染管線,可以自驅(qū)動學(xué)習(xí)模特說話時的唇動、表情、語音,以及姿態(tài)和動作等等,不僅無需真人參與,還可以實現(xiàn)更快速的渲染,降低制作成本。所以,這種技術(shù)方法可以繞過傳統(tǒng)3D建模的一些缺點,更適用于虛擬人的規(guī)模化制作。
目前來看,兩種技術(shù)路線各有優(yōu)劣,當(dāng)紅的虛擬人中既有“真人驅(qū)動型”的,也有“算法驅(qū)動型”的。而隨著人工智能技術(shù)的發(fā)展,算法、算力和數(shù)據(jù)的日趨完備,以及虛擬人應(yīng)用普及化時代的到來,相信越來越多的公司會鎖定后一個“賽場”。
其中,非常典型的一個代表是華智冰、N小黑的“締造者”小冰公司——二者都是通過小冰框架的深度神經(jīng)網(wǎng)絡(luò)渲染技術(shù)(XNR)生成的。這種技術(shù)路徑選擇與特定的應(yīng)用場景有一定的關(guān)系。
虛擬AI主播“N小黑”
以N小黑為例,他的背后是24小時不間斷的內(nèi)容生產(chǎn)和直播,如果使用3D建模的方法做一個15秒的片子,可能需要長達(dá)數(shù)月時間,顯然無法支持這一場景的實現(xiàn);但是基于深度神經(jīng)網(wǎng)絡(luò)技術(shù),整個過程是全自動化并且實時的,一邊輸入文本,另一邊的人就能動起來。
當(dāng)然,這種方法更適用于單一場景,比如N小黑的主要工作是財經(jīng)主播,如果突然要讓他去表演太極拳,可能就無法立即實現(xiàn)。針對這種需求,尤其是工業(yè)電影的使用場景,3D建?赡芨鼮楹线m。
行為:無限趨近人類的自然表達(dá)
除了時間、成本以及應(yīng)用場景方面的差異,還值得強(qiáng)調(diào)的一點是,相較于傳統(tǒng)3D建模技術(shù)通過貼片增加細(xì)節(jié)的方式,由算法驅(qū)動生成的虛擬人通過對真人細(xì)節(jié)的“學(xué)習(xí)”和“模仿”,在逼真度和自然度的表現(xiàn)也要更好一些。這會進(jìn)一步影響虛擬人的下一個特征——行為。
虛擬人的行為能力中主要包括了面部表情、肢體動作以及語言,涉及動畫生成模塊和語音生成模塊。其中,面部表情是人類表達(dá)情緒的第一道“密碼”。但是,早期的虛擬人大多是標(biāo)準(zhǔn)的“微笑營業(yè)臉”,即便可以做出其它表情也顯得相當(dāng)僵硬。
按照前文所說,算法驅(qū)動可以在很大程度上解決這個問題。比如今年初Unity收購的Ziva Dynamics就是一家精通復(fù)雜模擬與模型變形、機(jī)器學(xué)習(xí)與實時角色創(chuàng)作的企業(yè)。雙方共同創(chuàng)建的名為Emma的數(shù)字人就是由機(jī)器學(xué)習(xí)驅(qū)動的,她的模型使用了超過30TB的4D數(shù)據(jù)進(jìn)行訓(xùn)練,可以呈現(xiàn)出超過 72000個訓(xùn)練好的肌肉形狀,讓她的面部表情高度逼真且極具情感。
數(shù)字人Emma
顯然,這并不是單技術(shù)或者單學(xué)科的成果,而是跨學(xué)科的“藝術(shù)”呈現(xiàn)。引用Emma對自己的介紹,“這是結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和生物力學(xué)尖端技術(shù)的成果。而它將從根本上改變制作人類角色的方式。”
肢體動作的表達(dá)也是同理。想要讓虛擬人根據(jù)表達(dá)的內(nèi)容和情緒流暢地切換狀態(tài),背后需要更豐富的AI機(jī)器學(xué)習(xí)和深度學(xué)習(xí)能力,以及生物科學(xué)的支持。只有當(dāng)算法模型中積累了大量真人表情、肢體表達(dá)的數(shù)據(jù)之后,才能讓虛擬人像真人無限趨近。
好看的皮囊靠“顏”,有趣的靈魂靠“言”。和表情和動作相比,語言是更直接的表達(dá)方式,也是溝通交流的主要通道。而教虛擬人“說話”這件事本身并不算難,基于語音合成技術(shù)(TTS),將文本轉(zhuǎn)化為語音,再利用上面所說的各種驅(qū)動模型生成對應(yīng)的唇動、口型、表情,加上自然語言處理(NLP)能力,就能渲染出符合多數(shù)場景使用的虛擬人語言交互畫面。并且,和人類掌握語言的方式不同,借助于自然語言處理技術(shù),虛擬人還可以更輕松地學(xué)習(xí)各種不同的語言,做到多語種的輸出。
但是,讓虛擬人“自然交流”卻是更有難度的。在人類世界,這種情感識別能力與“情商”有關(guān),而在虛擬人世界,這與其“思想”有關(guān)。
思想:賦予知識與靈魂
一般來說,當(dāng)一個虛擬人具有能夠識別外界,并且能與人進(jìn)行自然交互的能力,就可以理解為他/她被賦予了“思想”(虛擬人分交互型與非交互型兩種,以下內(nèi)容主要以交互型為例)。
我們顯然不希望在跟虛擬人對話時,常常得到答非所問的反饋,也不喜歡跟一個三五番來回就變成話題終結(jié)者的虛擬人多費口舌。于是,多模態(tài)交互能力在虛擬人世界中“卷”了起來——這背后涉及的是交互模塊的調(diào)用,是智能化技術(shù)水平的體現(xiàn),是復(fù)雜的算法模型的支持。
還以一直主打共情、共感能力的小冰為例:據(jù)了解,小冰框架用于產(chǎn)生回復(fù)的模型綜合了檢索模型、生成模型、共感模型,以及對話引導(dǎo)模型,由此可以生成具有共感策略的回復(fù),形成較為完善的對話目的性和邏輯性。就像是兩個人在聊天,可能有“廢話”,可能會話趕話,但不是笨拙的、機(jī)械的問與答。
另外,一個有“靈魂”的虛擬人,其“思想”的個性化定制,會根據(jù)應(yīng)用場景、類型劃分、人設(shè)定位進(jìn)行設(shè)定,主要受訓(xùn)練數(shù)據(jù)和模型的影響。
比如,同屬于百度的數(shù)字人矩陣,百度AI手語主播的訓(xùn)練數(shù)據(jù)是大量的自然手語語料庫,不僅需要結(jié)合視覺識別技術(shù)的支持,同時,還需要ASR語音識別模型、手語翻譯模型、動作生成模型的支持;其它服務(wù)型數(shù)字人的知識“專業(yè)性”則更強(qiáng),例如針對浦發(fā)銀行推出的數(shù)字人“小浦”,訓(xùn)練數(shù)據(jù)是金融業(yè)務(wù)語料,而針對中國聯(lián)通推出的數(shù)字人“小U”,訓(xùn)練數(shù)據(jù)則是通信業(yè)務(wù)語料。
央視新聞AI手語主播
當(dāng)然,有的虛擬人不僅具備“專業(yè)技能”,還有更廣泛的知識體系。“AI畫家”夏語冰也擁有天籟之音;Ayayi不僅是時尚代言人還在成為數(shù)字策展人、潮牌主理人——最終,虛擬人就像人類一樣可能是多才多藝的,他們與人類的交互也無疑是多模態(tài)的,方式上涉及文字、語音、視覺、動作、環(huán)境等多種感官,時間上則更要求實時,過高的延時反饋可能會變得難以容忍。
音視頻合成顯示模塊的作用是把語音和動畫合成視頻之后呈現(xiàn)給用戶,這個過程依賴于底層算力的支持。只有足夠的算力,才能讓超寫實人物的實時渲染、復(fù)雜的人機(jī)對話,以及高門檻的專業(yè)知識賦能具備可行性。比如,基于超強(qiáng)的GPU渲染和AI算力能力,英偉達(dá)長期以來一直在加速圖形渲染的效率,在去年,還實現(xiàn)了對高清3D的實時渲染。
技術(shù)進(jìn)階,未來可期
無疑,技術(shù)的發(fā)展正在不斷彌合虛擬人的“能力缺口”,拉近虛擬人與人類的距離。隨著各類應(yīng)用需求的廣泛衍生,虛擬人將加快步入高速發(fā)展階段。
按照元宇宙的構(gòu)想,在未來世界,每個人都會擁有至少一個虛擬人。技術(shù)進(jìn)階,正在讓這一切發(fā)生,讓虛擬人的外觀更逼真、行為更靈動、思想更豐富,當(dāng)然,也讓我們對未來充滿想象和期待。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼
