編輯導語:在網際網路時代,各種各樣的內容類產品層出不窮,那麼相關監管部門對內容的稽核環節就顯得十分重要,各方面都需要稽核到位,本篇文章講述了AI技術在音訊稽核方面的應用,一起來看一下。
音訊稽核作為內容安全產品的一個模組,在內容稽核中既需要支援影片中的音訊稽核,還需要能支援單獨的音訊稽核,本節將跟大家一起討論關於音訊稽核的產品設計與應用。
一、背景
隨著各種各樣的內容類產品發展,當內容管理不到位時,就容易觸犯到國家對內容監管的的政策。
如何避免違規內容的傳播可以說是各大內容廠商最關注的環節之一。
因此,對內容的管理,都需要進行稽核到位,但是如果純靠人工稽核,估計像頭條號這樣的資訊平臺,一天得有上萬人稽核了。
目前各家對內容都會接入內容稽核平臺,基於人工智慧技術實現內容稽核,其中根據素材維度可以分為影片稽核、文字稽核、圖片稽核和音訊稽核。
從稽核內容角度看又包括色情、涉政、圖文違規、暴恐、違禁、廣告等。
本文將選擇音訊稽核的維度展開討論。
二、關鍵技術
關於音訊稽核中的關鍵技術,我們可以從兩個方面進行理解,分別是“有語義”和“無語義”。
1. 有語義型別
有語義型別是指待稽核的內容中有明確的語義資訊。
這裡文字稽核一般可以先經過ASR識別後,轉成文字資訊進行稽核,所以會涉及到以下技術。
語音識別
:透過ASR技術將音訊轉換為文字資訊;
語種識別
:針對部分小語種或者方言進行判別,識別後,再經過語音識別轉換為文字資訊;
NLP技術
:針對語音識別後的文字資訊進行處理,識別違規內容;具體的可以包括廣告詞文字識別、違禁詞識別、辱罵詞彙識別等。
2. 無語音型別
無語義型別識別是指音訊內容中不含語義資訊,所以無法透過ASR+NLP進行識別處理。
主要包括嬌喘、呻吟、ASMR 等沒有明確語言含義的音訊內容。
直接提供提取音訊的聲紋特徵進行分類識別,判斷是否違規。
3. 特殊的型別
這裡主要是指違禁歌曲識別,一般這樣的違規內容雖然包含了語義資訊,但是可能直接從內容資訊上是無法判斷的。
所以需要結合聲紋識別+音訊檢索的技術進行來識別,首先構建違禁歌曲庫,然後再根據音訊聲紋特徵進行識別並檢索。
如果出現在曲庫中則判斷違規,否則放過。
三、產品設計
1. 應用場景
(1)場景:
常見的需要應用到音訊稽核的場景有語音聊天室、影片直播間、語音廣場、FM電臺、音訊文學等都需要採用音訊稽核保證內容的安全性。
(2)稽核內容
涉黃稽核
:色情、低俗、汙穢、嬌喘等識別;
廣告稽核
:手機號等商業推廣內容識別;
涉政稽核
:涉政人物、反動分裂、恐怖主義等違規音訊;
違禁稽核
:毒品,賭博,違禁品等違禁內容。
注:其實音訊只是一個載體,以上稽核的內容實際上影片稽核也會涉及。
(3)場景發散
這裡多發散下思維,由於目前各個內容稽核廠商已經基本是同質化競爭了,所以產品的後續要想繼續保持競爭力。
一方面是技術能力的迭代加強,另一方面也是需要進一步拓展場景。
比如是否支援AR內容的稽核,又或者跟當前元宇宙結合,是否開始研究將來元宇宙內的資訊稽核呢。
2. 業務流程
這裡從宏觀點的角度陳述產品的業務流程,具體的細節可以交流,不在文章中贅述,業務流程中主要包括三塊。
源資料+預處理
:透過接入待稽核的內容,再進一步做預處理,包括分段等操作;
模型處理
:稽核的核心,透過輸入預處理後的資料,進行AI分析,輸出機器稽核結果,包括確認違規、疑似違規和未違規;
人工複審
:對疑似違規內容進行復審,同時也對違規和未違規的內容抽樣稽核,儘量確認判斷的準確性,同時在這一步也可以將人工複審出來的badcase做資料迴流用於演算法升級迭代。
注:
在實際業務場景中,一般會考慮是先稽核再內容釋出還是先發布再內容稽核。
這裡就需要根據業務進行判斷,因為這同時涉及到內容時間(希望搶佔熱點)和風險的制約。
一般可以考慮將違規風險很低的內容做先發後審(但是要提供及時下架的能力,避免出現擴散風險),比如PGC內容。
3. 產品功能設計
本節的產品功能設計主要從能力平臺角度出發進行講解,至於業務結果輸出後涉及到的業務系統這邊不做分析。
一個比較完備的音訊稽核產品可以從以下幾個角度進行設計。
(1)
功能介面
:提供好用的API和SDK能力,包括資料請求分析、資料結果查詢、規則定義介面(比如新增違規詞等)等介面。
在設計時,需要設定好欄位的支援力度,比如對於請求時要支援URL,同時是否需要支援音訊稽核模板(模板這裡是指一段音訊全部稽核,還是根據模板中選定的稽核維度進行稽核,比如只稽核涉黃)。
(2)
視覺化介面
:建議同步提供視覺化介面便於接入的使用者進行資料檢視,視覺化介面不僅可以提高使用者體驗,也可以輔助使用者進行產品使用。
一般視覺化介面可以包括以下幾點。
音訊分析
:除了介面外,使用者可以在視覺化介面上傳音訊檔案進行分析,分析後可以檢視分析結果
規則設定
:支援使用者自定義設定違規的內容,比如設定違規廣告詞、涉政敏感詞等;
資料統計
:可以包括兩個部分,一部分是統計資料分析的量級,以及分析成功失敗的次數等;另一方面以違規型別進行統計違規次數,比如某段時間內廣告違規發生了多少,涉黃內容發生了多少等;
注:除了上述三點,還可以支援使用者管理,比如使用者可以在系統中建立使用者賬號,支援不同業務系統使用等。
4. 評估指標
評估指標需要考核兩個方面。
違規識別準確率
:統計機器識別為違規並且人工複核確認違規的資料量/機器識別違規的資料總量;
違規識別召回率
:統計機器識別為違規並且人工複核確認違規的資料量/實際存在的違規數量。
音訊稽核的發展對音訊市場擴大可以起到很好的輔助作用,對內容釋出的監管可以實現降本增效。
但是在實際使用過程中,我們還需要思考業務應用場景,針對場景進一步迭代最佳化技術,比如車載場景的音訊內容是否可以很好稽核呢。
目前還存在很大的難度,因為車載場景的音訊容易受到很多噪聲的影響,所以不利於識別。
因此,總的來說,對於產品,需要能夠結合業務做到場景可控,讓AI真正發揮作用。
本文由@Eric_d 原創釋出於人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基於CC0協議。