位元組跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會

智東西（公眾號：zhidxcom）

編輯 | ZeR0

智東西6月1日報道，近期，位元組跳動火山語音團隊的最新音樂檢索系統ByteCover2入選了國際語音技術領域頂會ICASSP 2022。

該系統主要面向音樂資訊檢索（MIR）領域的重要任務之一——

翻唱識別（

CSI

）

，透過表徵學習方法讓其具備提取音樂核心特徵的能力，並且該特徵能夠對種類繁多的音樂重演繹具有良好的魯棒性，

檢索速度提高

倍

。

經Da-Tacos資料集上的評估，其準確率遠超其他方案的SoTA效能。

除了ByteCover2，位元組跳動火山語音團隊還有多篇論文被ICASSP 2022收錄，內容涵蓋

智慧音樂、音訊合成、音訊理解、超腦等多個方向

。

#FormatStrongID_8#

翻唱識別往往需要對音樂中的一些常見變化具有魯棒性，從而保證系統專注於對音樂旋律走向的建模。在設計翻唱識別系統時，

音樂調式偏移、音樂結構變化、音樂節奏變化

這三種音樂變化通常會被重點考慮。

此外，抖音平臺上每日新增千萬量級的使用者投稿，如何快速應對巨量查詢需求，提高識別系統的整體吞吐量並同時確保識別準確性，也是亟待解決的問題。

在內部開發返廠識別時，位元組跳動還面臨另一挑戰，即在設計特徵時，如何在保障其他性質的前提下儘可能減小特徵大小，從而減少儲存空間，降低系統複雜度和成本。

在ByteCover2系統中，位元組跳動火山語音團隊透過多工學習正規化聯合ResNet-IBN模型，做到從音訊輸入中提取魯棒且具備區分性的向量表徵。針對效率最佳化問題，團隊還提出了PCA-FC模組，實踐證明該模組在保證ByteCover2模型效能不變甚至提高的前提下，可將向量尺寸壓縮至ByteCover1的

1/8

。

Bytecover模型結構與訓練流程

、多工學習提高音樂檢索能力

翻唱識別領域通常存在兩種訓練正規化，分別是多分類學習和度量學習。

前者將每個曲目視為一個獨立類別，在特徵層後加上全連線層，並透過交叉熵等分類損失對模型進行訓練，訓練完成後去掉全連線層，使用特徵層的輸出作為歌曲的表徵；後者直接在特徵層之上，使用triplet loss等度量學習損失訓練網路。

總體來看，兩種訓練正規化各有優劣，團隊透過實驗發現，分類損失往往能提高模型對同曲目不同風格版本的檢索能力，細緻設計的度量學習損失則能提高翻唱網路對相似風格不同曲目音樂的區分能力。

因此ByteCover系列模型對這兩種學習正規化進行了結合，並透過引入BNNeck模組，提高了兩種損失的相容性。

、

ResNet

網路與

IBN

正則化方法（

ResNet & Instance-Batch Normalization

）

為了簡化音樂特徵提取的流程，加快特徵提取速度，團隊使用CQT頻譜圖作為模型的輸入，而不使用在同期其他翻唱識別方法中常用的cremaPCP或其他更為複雜的特徵，但此設計會天然地在輸入特徵層面上損害模型對音訊頻移的魯棒性。

因此，團隊選擇卷積神經網路做了音樂表徵提取網路，希望能利用卷積網路的平移不變性來實現模型對頻移的不變性。

實驗證明，CQT譜+普通ResNet組合已在效率和效能上超過CremaPCP+CNN的設計。

深入探究，團隊引入了Instance-Batch Normalization來從網路隱表示的層面進一步學習和風格無關的音樂特徵，即特徵圖上不同通道間的均值方差等統計量與輸入的風格化特徵相關。IN透過對特徵圖的通道維度做的歸一化處理，一定程度上實現了在隱藏表徵層面上去除風格化資訊，從而提高翻唱識別模型對音色變化的魯棒性。

、特徵降維模組（

PCA-FC

）

透過測算，團隊發現工業級別的翻唱系統大部分耗時集中在特徵檢索階段，而這一階段的時間消耗基本和曲庫的大小以及特徵向量的尺寸線性相關。曲庫中歌曲的數目會隨著業務的增長而不斷增加，因此降低特徵向量尺寸成為最佳化檢索系統整體耗時的必由之路，而同期其他翻唱向量特徵降維的工作往往採用一個全連線層來將高維向量投影到維度更低的空間。

實驗結果發現，單純使用全連線層進行降維會明顯降低系統的檢索能力，團隊認為這種現象不僅是因為更小的尺寸限制了向量的表徵能力，效能的損失也來自於隨機初始化的全連線層對特徵各向同性的破壞。

隨後對資料視覺化之後可發現，降維後特徵分佈在一個錐形空間，表現出明顯的各向異性，此種性質不利於使用餘弦距離為度量的向量檢索。

因此團隊嘗試使用PCA對特徵向量進行降維操作並隨後用PCA的變換矩陣初始化一個全連線層，把該層和特徵提取網路連線進來並聯合訓練，並將模組稱作PCA-FC。

實驗結果顯示，PCA-FC能顯著提升降維模型的檢索效能，在保持檢索效能不變的前提下向量尺寸可以被壓縮

8倍

。

對比結果

從結果來看，

一直以來Da-Tacos是作為評估翻唱識別的基準測試資料集，在該資料集上，採用1536維的ByteCover2模型取得了遠超其他方案的SoTA效能，全類平均正確率指標（mAP）達到

79.1%

，而ByteCover系列以外的最好方法Re-MOVE的該項指標只有52。5%。

值得一提的是，

128

維

的ByteCover2模型甚至超過了

2048

維

的ByteCover1和Re-MOVE方法。

此外，ByteCover1系統還參加了2020國際音訊檢索評測大賽MIREX，過程中大幅重新整理了翻唱識別賽道歷年最好記錄，mAP指標達到

84%

，是同年參加該競賽的其他方案效能的

倍

。

#FormatStrongID_34#

在智慧音樂方向，位元組跳動火山語音團隊基於Transformer的聲音事件檢測模型HTS-AT、基於層級式Transformer的自監督音樂預訓練演算法S3T兩篇論文均被ICASSP 2022收錄。

、

HTS-AT

：用於聲音分類和檢測的分層標記語義音訊

HTS-AT針對音訊任務的特性，該結構能有效提高音訊頻譜資訊在深度Transformer網路中的流動效率，提高了模型對聲音事件的判別能力，並且透過降低輸出特徵圖的大小，顯著降低了模型地計算量與記憶體消耗。HTS-AT還引入了Token Semantic模組，使模型具備預測聲音時間起始與終止點的能力，並且無需使用額外有標註資料進行訓練。

HTS-AT模型的結構

綜合以上技術，HTS-AT在標準資料集AudioSet上的mAP指標達到

0.471，

是當前的該資料集上的

最佳水平

，且引數與計算量都小於之前的最佳方法；另外，在聲音事件定位任務上，HTS-AT無需額外標註資料，即達到有監督定位模型的效能水平。

在音樂識別場景中，聲音事件檢測模型會挑選包含音樂的片段送入音樂檢索系統，以此來提高整個系統的效率與準確性。

、

S3T

：針對音樂分類基於

Swin Transformer

的自監督預訓練

這篇文章提出了一種創新的、基於層級式Transformer的自監督音樂預訓練演算法S3T。

S3T使用了大規模音樂預訓練配合少量標籤資料微調的正規化，充分利用大量無標籤的音樂資料，透過挖掘時域和頻域的資訊，學習具有較強泛化性的通用音樂表徵。S3T在多個下游任務上均取得很好效果，特別是僅使用10%的標籤資料進行微調效果便能超過使用以往全量標籤資料訓練的模型，大幅降低了人工資料標註的成本。

S3T模型結構與訓練流程

音樂自監督學習無需大量人工標籤便可利用大量音樂資料充分挖掘其自身的表徵，且擁有較強的通用性。本文提出的音樂表徵自監督學習，為音樂理解構築了基礎。

S3T目前已經應用在音樂標籤、音樂指紋等場景，微調後的S3T可以為音樂打上風格、語種、情緒等標籤，可靠的音樂標籤可以進一步服務音樂推薦系統，使其精準地向來自不同地區的使用者推送合適的音樂。

#FormatStrongID_46#

在音訊合成方向，位元組跳動火山語音團隊基於服裝風格遷移實現場景感知下的人物影片生成論文被ICASSP 2022收錄。

該方向致力於解決影片中人物個性化穿搭和背景場景自由的選擇問題，設計了多個解耦encoder學習人物不同的屬性（身份、衣服和姿態），透過共享decoder融合多層面資訊。

不同於圖片任務，影片需要學習幀之間的變化，所以團隊設計了幀間判別器（Inner-frame Discriminator）來大幅提升穩定性。具體來說，在模型生成的結果上應用掩碼，人物可切換到任意場景上。

工作在公開資料集TEDXPeople，相對baseline系統（CVPR2021）影片中衣服個性化的多項客觀指標均有顯著改善，可以達到SOTA效果：

SSIM +0.047，PSNR +4.6，FID（越小越好） -0.4, FVD（越小越好）-0.543

。

場景感知的服裝風格遷移模型框架

在數字人多模態生成的場景和業務中，數字人主播衣服的個性化穿搭和場景自由的選擇，為使用者提供了自主可控的個性化能力，可大幅增加數字人生態的多樣性。

#FormatStrongID_47#

在音訊理解方向，位元組跳動火山語音團隊基於細粒度語境知識選擇的端到端（語境）語音識別提升方法、非自迴歸Transformer自動語音識別的最小詞誤差訓練、使用梯度掩碼改進端到端語音識別的偽標籤訓練論文被ICASSP 2022收錄。

此外，面向會議場景，火山語音團隊在ICASSP 2022多方會議轉錄挑戰賽（M2MeT）的兩個限定訓練資料子賽道上分獲第二名和第四名。

、基於細粒度語境知識選擇的端到端（語境）語音識別提升方法

該工作在一種被稱為協同解碼（Collaborative Decoding，ColDec）的語音識別定製化/個性化方法的基礎上，提出了細粒度語境知識選擇機制（Fine-grained Contextual Knowledge Selection），來進一步增強該方法在大熱詞列表和較多幹擾熱詞情境下的語音識別定製化效能。在先前工作中，一種被稱為協同解碼（Collaborative Decoding）的語音識別定製化技術有效地提升了定製化識別效能。

本文針對其在大熱詞列表和較多幹擾熱詞情境下的效能衰減問題，提出了細粒度語境知識選擇機制，進一步增強了協同解碼技術在定製化場景下的能力。

在公開資料集Librispeech上，本文方法在基礎CIF語音識別模型的test-clean 2。12%的WER基礎上，進一步為WER帶來了約

的相對下降；在內部16w小時工業級ASR資料集訓練的語音識別模型的基礎上，該方法在真實會議測試集上為CER帶來了最高約

16%

的相對下降。

a。協同解碼 b。細粒度語境知識選擇

應用場景方面，該方法可被用於語音識別定製化，例如在智慧語音助手和線上影片會議等應用場景中，許多同背景相關的關鍵短語、個性化資訊、熱詞等內容都較難識別。

此外，它也可以用在移動端智慧語音助手的應用場景下，聯絡人列表中的聯絡人姓名，頻繁出沒的地點位置等個性化資訊；線上會議場景下，參會人員的姓名，會議主題相關的專業術語等，針對性地提升這些定製化和個性化文字內容的語音識別效能，在實際應用場景中有重要意義。

、非自迴歸

Transformer

自動語音識別的最小詞誤差訓練

這篇論文由位元組跳動和南洋理工大學（NTU）共同完成。近年來由於基於非自迴歸Transformer（NAT）的自動語音識別（ASR）框架的以下優點，分別是“當前的輸出與歷史的輸出無關”以及“其推理速度非常快”，其在業界日益受到重視。

對此，團隊對於其在語碼轉換語音識別任務（CSSR）上的效能有所期待。另外據不完全瞭解，似乎並沒有出現將最小詞錯率（MWER）準則應用於NAT模型的先例，所以

該工作在一定程度上填補了此項空白，且在

SEAME

語碼轉換資料集上得到了驗證。

本文的貢獻主要在兩個方面：（1）在語碼轉換的場景下，提出了多種CTC掩蔽的方式訓練NAT模型；（2）在MWER訓練準則下，提出了多種N-best假設的生成方法。

其發現及結論是：（1）無論在單語言還是跨語言的場景下，上下文相關的場景資訊非常重要，而NAT沒有歷史資訊，NAT模型相比自迴歸的Transformer（AT）得到了一致性更差的結果；（2）嚴重受限於N-best假設的生成方法，在NAT模型上進行基於N-best的MWER訓練只得到了細微的提升，所以如何生成更豐富的N-best有待進一步研究。

、使用梯度掩碼改進端到端語音識別的偽標籤訓練

一直以來，打偽標籤在自監督學習中都是最重要的方法，最近在語音識別領域也展現出極好的效果，但是自監督學習對偽標籤的質量極其敏感，主要是因為偽標籤中的錯誤或者噪聲常常會導致模型訓練的不穩定並最終收斂到非最佳的狀態，特別是對於e2e的模型比如RNNT。

對此該論文提出了Gradient-mask的方法來應對以上問題。此方法在訓練過程中抹去了encoder中可見input的對應梯度，從而鼓勵模型從不可見的部分進行推測，並且能有效降低模型對corrupted label的overfit。

應用場景方面，此方法可以有效應對模型overfit到corrupted label並提升模型訓練的效果，例如半監督自學習中，因為domain不match等原因導致pseudo-label質量過差，以及已知一部分資料標註質量過差的問題。

、

ICASSP 2022

多方會議轉錄挑戰賽的火山語音系統

會議場景是語音識別和說話人日誌技術應用中最有價值和挑戰的場景之一，會議場景包含了豐富的說話風格和複雜的聲學條件，需要考慮重疊語音、未知數量說話人、遠場訊號、噪音、混響等挑戰。

ICASSP 2022多通道多方會議轉錄挑戰（M2MeT）提供了120小時真實記錄的中文會議資料，包含8通道麥克風遠場資料和對應耳機麥克風採集的近場資料。M2MeT挑戰賽包括多說話人語音識別和說話人日誌兩個賽道，團隊在限定訓練資料子賽道上分別獲得第二名和第四名。

針對多說話人語音識別賽道，團隊提出一種神經網路前端模組和語音識別模組端到端聯合訓練的方法，輸入8通道音訊輸出多說話人識別文字，除此之外加入了豐富的8通道資料模擬，在測試集上和官方基線相比CER相對下降32。6%。

在說話人日誌賽道中，結合前端訊號處理技術，團隊提出一種融合聲源定位資訊的說話人日誌方法，提高識別準確率；同時針對競賽資料中存在的說話人重疊問題，提出一種多通道融合演算法，減少重疊部分的說話人漏檢，最後採用修改的DOVER-Lap演算法對多套系統進行融合，最終在測試集上的DER（說話人日誌錯誤率）相比官方基線相對下降

53.7%

。

該技術可以被用在會議室多通道麥克風場景下，生成包含說話人資訊的多說話人語音轉錄結果。

#FormatStrongID_66#

在超腦方向，火山語音團隊基於稀疏共享子網路的跨語言語音表徵學習論文被ICASSP 2022收錄。

該工作提出了一種基於稀疏共享結構的多語言語音表徵學習方法，即從模型中劃分出多個稀疏子網路來分別對不同語言進行建模，進而實現語言自適應訓練，每個語言的子網路都透過裁剪不重要的引數進行提取。

基於此，文中探索了一種基於彩票假設（Lottery Ticket Hypothesis）的提取方法以及另一種基於一階泰勒展開的快速提取方法。在下游多語言語音識別任務上，所提出的方法可以大幅降低基線XLSR模型的錯誤率，並超過Gating Network、Adapter等其他自適應訓練方法。

基於稀疏共享結構的多語言預訓練流程

在國際化背景下，為了滿足不同語言的字幕、稽核和翻譯等需求，需要針對各個語言去搭建語音識別系統。多語言語音識別的目標是用單一模型去支援多個語言的語音識別，可以有效的減輕部署和維護的成本，並能在一些低資源場景下提升識別效果，具有非常重要的意義。

#FormatStrongID_67##FormatStrongID_68##FormatStrongID_69##FormatStrongID_70##FormatStrongID_71#

位元組跳動火山語音團隊是原位元組跳動AI Lab Speech & Audio智慧語音與音訊團隊，致力於為公司各個業務提供音訊理解、音訊合成、對話互動、音樂檢索和智慧教學等AI能力與方案。

自2017年成立以來，位元組跳動火山語音團隊研發的AI智慧語音技術，已經為今日頭條、抖音、剪映、西瓜影片、番茄小說、飛書辦公套件等位元組跳動旗下重量級產品提供了各類AI解決方案。

截至目前，該團隊已服務上百個業務合作伙伴。伴隨位元組跳動業務的快速發展，其語音識別和語音合成覆蓋了多種語言和方言，已有多篇論文入選各類AI頂級會議，未來希望繼續發展70+語言和20+方言，用於滿足內容創作與交流平臺的需求。隨著位元組跳動火山語音團隊不斷探索AI與業務場景的高效結合，我們期待看到其智慧語音技術實現更大的使用者價值。

奧推網

位元組跳動將音樂檢索速度提高8倍,多篇論文入選語音頂會

相關文章閱讀