僅用14資料量還原真人語音100%細節,火山語音上新語音合成技術

數星星盼月亮，萬千傑迷苦等6年，不久之前終於等到周董發新專輯啦！一經上線引爆全網討論。

正當大家沉浸在對那時青蔥歲月的美好追憶時，發來上述這段音訊的小夥伴表示：這段對話居然是語音合成的！提到“語音合成”，你腦海中可能會出現這樣的種種：

導航中種類豐富但語氣機械的“前方路口左轉”……

接電話時，對面笨拙無感情的“您好，這裡是xx信用卡中心”……

影片網站上，十個解說影片九個聲音相同，看到就想趕快划走的“注意看，這個男人叫小帥”…...

而如今直接顛覆了許多人的刻板印象，語音合成技術已經能做到像上面那段音訊一樣完美自然的效果了。這段音訊的釋出者，

火山語音，位元組跳動 AI Lab Speech & Audio 智慧語音與音訊團隊

，為了更好地向大眾解密裡面的技術亮點。

這幾句輸入的文字完全相同，即 “南方菜系偏愛蘸料，例如我第一次去上海才知道燒烤裡的蔬菜也需要配蘸料” ，但合成的音訊效果卻有明顯差異，

即第二段音訊來源於火山語音團隊本次上新的超自然對話語音合成技術。

回想一下人在日常表達時的狀態，大腦處理資訊是需要思考時間的。體現到語言上，人就會不由自主的出現一些猶豫、拖音、倒裝，甚至是說了一半改口、結巴重複的情況，也會刻意加重讀音強調想表達的重點資訊。這就帶來了大量難以觀測的細微表達。這些現象在傳統的TTS中難以被捕捉還原。而這些細微之處的完美復現正是讓聲音真假難辨的奧妙之源，也是上述音訊的奧秘所在。

具體來說，

火山語音團隊最新發布的超自然對話語音合成技術相較傳統TTS更加真實自然，即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統被完美復現，而且只需常規音庫1/4資料，就可完美還原真人說話細微的韻律特點、發音口癖，讓合成效果更加真實。

有專業評測結果顯示，火山語音的這項新技術與真人錄音對比基本沒有差距，難以被評測者分辨出來。

此外這項技術目前已在影片配音、電話客服等多個場景投入應用，近日即將上線火山引擎語音技術官網對外露出。

這麼厲害的技術，究竟是怎麼辦到的？

據介紹，上述這些在實際交流中經常出現的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現被稱為副語言現象（paralanguage）

，儘管這是人腦思考、表達過程中最真實的表現，但由於傳統的語音合成技術框架無法對分佈稀疏的副語言現象進行有效建模，所以在說話時的韻律還原度表現有限、過於“正確”。基於上述難點，火山語音超自然語音合成技術分別從

文字和語音建模

兩個層面進行突破，具體來說：

在文字層面，火山語音採用了生成式的風格遷移模型，模模擬人說話的方式對文字進行可控的口語化轉寫，讓文字更好地擁抱口語化，避免最終效果太過書面。

在語音層面，團隊則是透過文字分析模型的突破，在TTS的輸入側額外增加了副語言預測，模模擬人的發音特點來實現自然自發的語音效果。

值得一提的是，團隊透過使用無監督特徵的TTS建模方案，有效提高了模型的穩定性與表現力，僅僅使用常規音庫1/4的資料規模，就可以實現十分自然多變的韻律效果，很贊吧？

致力文字口語化讓“擬真人表達”躍然紙上

文字作為語音合成技術的輸入，其風格是否貼近真人的表達方式，是合成效果提升的第一步；但受限於根深蒂固的書寫用語習慣，大多數合成前的文字並不夠自然，或者需要投入大量精力不斷調整，費時費力。為了解決此類問題，火山語音團隊採用了兩階段方案並取得了不錯的效果：

階段一：採用自監督方法，使用偽資料對口語化模型進行預訓練，降低了資料量的需求；同時在模型中引入了指標網路結構，增強了文字可控性。

階段二：利用少量優質的人工標註資料，對預訓練好的口語化模型進行微調，最終實現可控的、自然的口語化文字效果。

原始文字

自動化預測後的文字

南方菜系偏愛蘸料，例如我第一次去上海才知道燒烤裡的蔬菜也需要配蘸料

嗯，

南方菜系

的話，超級

偏愛用蘸料

啊什麼的

，

就比如說

我第一次

呃，第一次

去上海的時候，才知道這個燒烤裡的蔬菜也得配著蘸料

像我們上街去買白菜，南方人說我要半顆白菜，北方人說我來半車白菜

嗯這跟

我們上街買白菜

差不多吧，

南方人說我要半棵白菜，

然後那個

北方人說我來半車

其實南方菜系更偏重吃調料的味道，即廚師用調料去發揮他的功力

對，其實南方菜系更偏重的是吃它這個調料的味道，

也就是說，

廚師這個，用調料去發揮他的功力

副語言建模+韻律多樣性可圈可點

語音真實感全面升級

為了更好地還原真人，區別於傳統的語音合成技術，火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面，團隊推出的合成技術實現了聲學模型對自然表達中出現的吸氣、笑聲、猶豫、修正等多種副語言現象建模，並且結合文字的語義資訊自動插入副語言現象。在插入過程中同時考慮合理性與隨機性，表現更加自然真實。

“在韻律多樣化的探究中，我們結合無監督表徵學習技術，自主研發了高表現力的聲學模型框架，透過發音、韻律、音色解耦等方式，不但降低了資料量的需求，實現對出現頻率極低發音現象的高效建模；同時使用無監督表徵特徵並結合音素級別的基頻、能量資訊等，實現了韻律的自然多變，促成高質量對話語音生成。”火山語音團隊總結道。

火山語音，位元組跳動AI Lab Speech&Audio智慧語音與音訊團隊，長期以來面向抖音、剪映、番茄小說、飛書等業務提供領先的AI語音技術能力及全棧語音產品解決方案，並透過火山引擎向外部企業開放技術服務。

奧推網

僅用14資料量還原真人語音100%細節,火山語音上新語音合成技術

相關文章閱讀