AI應用例項(三):音訊稽核

編輯導語：在網際網路時代，各種各樣的內容類產品層出不窮，那麼相關監管部門對內容的稽核環節就顯得十分重要，各方面都需要稽核到位，本篇文章講述了AI技術在音訊稽核方面的應用，一起來看一下。

音訊稽核作為內容安全產品的一個模組，在內容稽核中既需要支援影片中的音訊稽核，還需要能支援單獨的音訊稽核，本節將跟大家一起討論關於音訊稽核的產品設計與應用。

一、背景

隨著各種各樣的內容類產品發展，當內容管理不到位時，就容易觸犯到國家對內容監管的的政策。

如何避免違規內容的傳播可以說是各大內容廠商最關注的環節之一。

因此，對內容的管理，都需要進行稽核到位，但是如果純靠人工稽核，估計像頭條號這樣的資訊平臺，一天得有上萬人稽核了。

目前各家對內容都會接入內容稽核平臺，基於人工智慧技術實現內容稽核，其中根據素材維度可以分為影片稽核、文字稽核、圖片稽核和音訊稽核。

從稽核內容角度看又包括色情、涉政、圖文違規、暴恐、違禁、廣告等。

本文將選擇音訊稽核的維度展開討論。

二、關鍵技術

關於音訊稽核中的關鍵技術，我們可以從兩個方面進行理解，分別是“有語義”和“無語義”。

1. 有語義型別

有語義型別是指待稽核的內容中有明確的語義資訊。

這裡文字稽核一般可以先經過ASR識別後，轉成文字資訊進行稽核，所以會涉及到以下技術。

語音識別

：透過ASR技術將音訊轉換為文字資訊；

語種識別

：針對部分小語種或者方言進行判別，識別後，再經過語音識別轉換為文字資訊；

NLP技術

：針對語音識別後的文字資訊進行處理，識別違規內容；具體的可以包括廣告詞文字識別、違禁詞識別、辱罵詞彙識別等。

2. 無語音型別

無語義型別識別是指音訊內容中不含語義資訊，所以無法透過ASR+NLP進行識別處理。

主要包括嬌喘、呻吟、ASMR 等沒有明確語言含義的音訊內容。

直接提供提取音訊的聲紋特徵進行分類識別，判斷是否違規。

3. 特殊的型別

這裡主要是指違禁歌曲識別，一般這樣的違規內容雖然包含了語義資訊，但是可能直接從內容資訊上是無法判斷的。

所以需要結合聲紋識別+音訊檢索的技術進行來識別，首先構建違禁歌曲庫，然後再根據音訊聲紋特徵進行識別並檢索。

如果出現在曲庫中則判斷違規，否則放過。

三、產品設計

1. 應用場景

（1）場景：

常見的需要應用到音訊稽核的場景有語音聊天室、影片直播間、語音廣場、FM電臺、音訊文學等都需要採用音訊稽核保證內容的安全性。

（2）稽核內容

涉黃稽核

：色情、低俗、汙穢、嬌喘等識別；

廣告稽核

：手機號等商業推廣內容識別；

涉政稽核

：涉政人物、反動分裂、恐怖主義等違規音訊；

違禁稽核

：毒品，賭博，違禁品等違禁內容。

注：其實音訊只是一個載體，以上稽核的內容實際上影片稽核也會涉及。

（3）場景發散

這裡多發散下思維，由於目前各個內容稽核廠商已經基本是同質化競爭了，所以產品的後續要想繼續保持競爭力。

一方面是技術能力的迭代加強，另一方面也是需要進一步拓展場景。

比如是否支援AR內容的稽核，又或者跟當前元宇宙結合，是否開始研究將來元宇宙內的資訊稽核呢。

2. 業務流程

這裡從宏觀點的角度陳述產品的業務流程，具體的細節可以交流，不在文章中贅述，業務流程中主要包括三塊。

源資料+預處理

：透過接入待稽核的內容，再進一步做預處理，包括分段等操作；

模型處理

：稽核的核心，透過輸入預處理後的資料，進行AI分析，輸出機器稽核結果，包括確認違規、疑似違規和未違規；

人工複審

：對疑似違規內容進行復審，同時也對違規和未違規的內容抽樣稽核，儘量確認判斷的準確性，同時在這一步也可以將人工複審出來的badcase做資料迴流用於演算法升級迭代。

注：

在實際業務場景中，一般會考慮是先稽核再內容釋出還是先發布再內容稽核。

這裡就需要根據業務進行判斷，因為這同時涉及到內容時間（希望搶佔熱點）和風險的制約。

一般可以考慮將違規風險很低的內容做先發後審（但是要提供及時下架的能力，避免出現擴散風險），比如PGC內容。

3. 產品功能設計

本節的產品功能設計主要從能力平臺角度出發進行講解，至於業務結果輸出後涉及到的業務系統這邊不做分析。

一個比較完備的音訊稽核產品可以從以下幾個角度進行設計。

（1）

功能介面

：提供好用的API和SDK能力，包括資料請求分析、資料結果查詢、規則定義介面（比如新增違規詞等）等介面。

在設計時，需要設定好欄位的支援力度，比如對於請求時要支援URL，同時是否需要支援音訊稽核模板（模板這裡是指一段音訊全部稽核，還是根據模板中選定的稽核維度進行稽核，比如只稽核涉黃）。

（2）

視覺化介面

：建議同步提供視覺化介面便於接入的使用者進行資料檢視，視覺化介面不僅可以提高使用者體驗，也可以輔助使用者進行產品使用。

一般視覺化介面可以包括以下幾點。

音訊分析

：除了介面外，使用者可以在視覺化介面上傳音訊檔案進行分析，分析後可以檢視分析結果

規則設定

：支援使用者自定義設定違規的內容，比如設定違規廣告詞、涉政敏感詞等；

資料統計

：可以包括兩個部分，一部分是統計資料分析的量級，以及分析成功失敗的次數等；另一方面以違規型別進行統計違規次數，比如某段時間內廣告違規發生了多少，涉黃內容發生了多少等；

注：除了上述三點，還可以支援使用者管理，比如使用者可以在系統中建立使用者賬號，支援不同業務系統使用等。

4. 評估指標

評估指標需要考核兩個方面。

違規識別準確率

：統計機器識別為違規並且人工複核確認違規的資料量/機器識別違規的資料總量；

違規識別召回率

：統計機器識別為違規並且人工複核確認違規的資料量/實際存在的違規數量。

音訊稽核的發展對音訊市場擴大可以起到很好的輔助作用，對內容釋出的監管可以實現降本增效。

但是在實際使用過程中，我們還需要思考業務應用場景，針對場景進一步迭代最佳化技術，比如車載場景的音訊內容是否可以很好稽核呢。

目前還存在很大的難度，因為車載場景的音訊容易受到很多噪聲的影響，所以不利於識別。

因此，總的來說，對於產品，需要能夠結合業務做到場景可控，讓AI真正發揮作用。

本文由@Eric_d 原創釋出於人人都是產品經理，未經許可，禁止轉載。

題圖來自 Unsplash，基於CC0協議。

奧推網

AI應用例項(三):音訊稽核

相關文章閱讀