奧推網

選單
科技

火山引擎虛擬數字人平臺透過中國信通院首批數字人系統能力評測

6月21日,由內容科技產業推進方陣、中國信通院雲計算與大資料研究所、中國通訊標準化協會TC602聯合主辦的“2022內容科技成果釋出會”落地線上。會上公佈了首批數字人系統基礎能力評測結果,火山引擎虛擬數字人平臺榜上有名,在技術、工程化、安全保障等方面均滿足評測要求。

作為中國信通院為進一步推動產業界對數字人概念達成共識,提升其工程化落地能力而啟動的首屆評測,該評測共計48個測試項,主要透過“採用人員訪談、系統操作演示和材料審查”相結合的方法,分別從基礎技術能力、基礎工程化能力、基礎安全保障能力三大維度、綜合涵蓋語音技術能力、互動技術能力、易用可靠性以及形象版權保障、內容風險控制等在內的多項指標對參評數字人系統進行全面評估。

此次參與評測的火山引擎虛擬數字人平臺屬於火山語音“AI虛擬員工解決方案”的核心產品,方案以人機互動為核心,涵蓋語音識別、語義理解、對話互動、語音合成以及雙工控制等多項業界領先的核心技術,打造從形象、感知、理解、表達能力都趨近於真人的數字員工,為企業提供高度擬人化的客戶服務。此次平臺成功獲得信通院評測的權威認證,也充分表明火山語音支援下的數字人技術能力和產品成熟度獲得了業界認可。

深入瞭解火山引擎數字人,從形象型別劃分主要涵蓋2D、3D卡通、3D超寫實,其中2D數字人是由真人在專業錄影棚錄製的影片訓練而成,AI驅動效果與真人幾乎無異,適用於嚴謹專業的業務場景;而3D卡通數字人則因其卡通化的外形,更能展現生動活潑的數字人個性,常用在輕鬆娛樂的場景;3D超寫實數字人介於兩者之間,一方面依託於快速突破的3D建模技術,外觀形象高度還原真人髮膚,另一方面又保留了3D空間感和資訊載體優勢,適用於對形象空間感、3D特效或XR等資訊載體要求較高的創新場景。

火山引擎數字人形象矩陣

除了形象特徵的千差萬別,2D數字人和3D數字人的技術實現路徑也大有不同。2D數字人透過行業領先的非自迴歸模型的唇形生成網路,合成與輸入文字或語音完全匹配的唇形,有效減小誤差累積,準確率高達98。55%。“此外還透過頭部姿態與唇形的解耦實現頭部姿態的靈活控制,並藉助光流插幀實現語義相關的肢體動作的自然過渡。讓火山引擎數字人具備業內領先的自然表現力,目前整體自然度MOS可達3。8以上。”火山語音團隊總結道。

對比而言,3D數字人則透過原畫、建模、繫結、AI訓練、渲染等流程製作,自研基於IPA的細粒度唇形驅動方案來實現高精度的唇形、表情驅動,目前唇形自然度MOS可達4。0;透過不斷打磨的Pose Matching演算法實現同級動作的自然打斷與切換,靈活的圖層控制策略支援3D渲染結果的後期處理,整體自然度MOS可達3。8以上。

從場景適配出發,目前火山引擎數字人包括“播報型數字人”和“互動型數字人”兩種型別。其中播報型數字人,即輸入文字或語音,就可生成自然生動的數字人播報影片;互動數字人作為播報型數字人的形態升級,依託於火山語音長期積累的成熟語音互動技術,讓數字人“善聽”、“會說”、“能想”,與使用者面對面實時互動。

具體來說在語音識別方面,火山語音透過業內領先的端到端語音識別模型,以及長期深耕金融、汽車、泛互等行業所積累的資料經驗,在數十個領域中、真實場景資料反饋下,字準均可達到 92% 以上;語音合成方面,憑藉行業優勢的端到端互動式合成技術,細粒度還原真人韻律、笑聲、副語言等,物件感極強,測聽人員已無法分辨出合成的語音與真人錄音。綜合而言,目前互動數字人集成了全雙工語音互動鏈路,前向相容語音以及文字輸入,後向相容2D與3D數字人表現力,整體端到端互動延遲在500ms左右,效能效果達到業內領先水平。未來火山引擎數字人還將整合火山視覺“可看”的能力,實現數字人語音交互向多模態互動的升級。

多模態互動數字人技術環路

如今火山語音“AI虛擬數字員工解決方案”已具備標準平臺的快速交付能力,面向金融、大消費、泛互等行業為客戶提供涵蓋“金融客服”、“智慧導覽”、“智慧助理”、“虛擬直播”等場景細分解決方案,為使用者帶來全新的互動服務和便捷體驗。

火山引擎虛擬數字人平臺

在“激發無限創意,提升業務增長”的目標驅動下,火山引擎AI基於多年沉澱的人工智慧技術,將音影片、直播、AR等多種內容形態下的創作能力,靈活高效地賦能企業內部工具以及使用者產品中,持續為使用者體驗和業務增長注入創新勢能。未來,以此為基,火山語音在持續提供全球領先的語音AI技術能力以及卓越的全棧語音產品解決方案的同時,將繼續深耕AI數字人技術,不斷探索前沿科技與業務場景的高效結合,以實現更大的使用者價值。