奧推網

選單
科技

AI應用例項(三):音訊稽核

編輯導語:在網際網路時代,各種各樣的內容類產品層出不窮,那麼相關監管部門對內容的稽核環節就顯得十分重要,各方面都需要稽核到位,本篇文章講述了AI技術在音訊稽核方面的應用,一起來看一下。

音訊稽核作為內容安全產品的一個模組,在內容稽核中既需要支援影片中的音訊稽核,還需要能支援單獨的音訊稽核,本節將跟大家一起討論關於音訊稽核的產品設計與應用。

一、背景

隨著各種各樣的內容類產品發展,當內容管理不到位時,就容易觸犯到國家對內容監管的的政策。

如何避免違規內容的傳播可以說是各大內容廠商最關注的環節之一。

因此,對內容的管理,都需要進行稽核到位,但是如果純靠人工稽核,估計像頭條號這樣的資訊平臺,一天得有上萬人稽核了。

目前各家對內容都會接入內容稽核平臺,基於人工智慧技術實現內容稽核,其中根據素材維度可以分為影片稽核、文字稽核、圖片稽核和音訊稽核。

從稽核內容角度看又包括色情、涉政、圖文違規、暴恐、違禁、廣告等。

本文將選擇音訊稽核的維度展開討論。

二、關鍵技術

關於音訊稽核中的關鍵技術,我們可以從兩個方面進行理解,分別是“有語義”和“無語義”。

1. 有語義型別

有語義型別是指待稽核的內容中有明確的語義資訊。

這裡文字稽核一般可以先經過ASR識別後,轉成文字資訊進行稽核,所以會涉及到以下技術。

語音識別

:透過ASR技術將音訊轉換為文字資訊;

語種識別

:針對部分小語種或者方言進行判別,識別後,再經過語音識別轉換為文字資訊;

NLP技術

:針對語音識別後的文字資訊進行處理,識別違規內容;具體的可以包括廣告詞文字識別、違禁詞識別、辱罵詞彙識別等。

2. 無語音型別

無語義型別識別是指音訊內容中不含語義資訊,所以無法透過ASR+NLP進行識別處理。

主要包括嬌喘、呻吟、ASMR 等沒有明確語言含義的音訊內容。

直接提供提取音訊的聲紋特徵進行分類識別,判斷是否違規。

3. 特殊的型別

這裡主要是指違禁歌曲識別,一般這樣的違規內容雖然包含了語義資訊,但是可能直接從內容資訊上是無法判斷的。

所以需要結合聲紋識別+音訊檢索的技術進行來識別,首先構建違禁歌曲庫,然後再根據音訊聲紋特徵進行識別並檢索。

如果出現在曲庫中則判斷違規,否則放過。

三、產品設計

1. 應用場景

(1)場景:

常見的需要應用到音訊稽核的場景有語音聊天室、影片直播間、語音廣場、FM電臺、音訊文學等都需要採用音訊稽核保證內容的安全性。

(2)稽核內容

涉黃稽核

:色情、低俗、汙穢、嬌喘等識別;

廣告稽核

:手機號等商業推廣內容識別;

涉政稽核

:涉政人物、反動分裂、恐怖主義等違規音訊;

違禁稽核

:毒品,賭博,違禁品等違禁內容。

注:其實音訊只是一個載體,以上稽核的內容實際上影片稽核也會涉及。

(3)場景發散

這裡多發散下思維,由於目前各個內容稽核廠商已經基本是同質化競爭了,所以產品的後續要想繼續保持競爭力。

一方面是技術能力的迭代加強,另一方面也是需要進一步拓展場景。

比如是否支援AR內容的稽核,又或者跟當前元宇宙結合,是否開始研究將來元宇宙內的資訊稽核呢。

2. 業務流程

這裡從宏觀點的角度陳述產品的業務流程,具體的細節可以交流,不在文章中贅述,業務流程中主要包括三塊。

源資料+預處理

:透過接入待稽核的內容,再進一步做預處理,包括分段等操作;

模型處理

:稽核的核心,透過輸入預處理後的資料,進行AI分析,輸出機器稽核結果,包括確認違規、疑似違規和未違規;

人工複審

:對疑似違規內容進行復審,同時也對違規和未違規的內容抽樣稽核,儘量確認判斷的準確性,同時在這一步也可以將人工複審出來的badcase做資料迴流用於演算法升級迭代。

注:

在實際業務場景中,一般會考慮是先稽核再內容釋出還是先發布再內容稽核。

這裡就需要根據業務進行判斷,因為這同時涉及到內容時間(希望搶佔熱點)和風險的制約。

一般可以考慮將違規風險很低的內容做先發後審(但是要提供及時下架的能力,避免出現擴散風險),比如PGC內容。

3. 產品功能設計

本節的產品功能設計主要從能力平臺角度出發進行講解,至於業務結果輸出後涉及到的業務系統這邊不做分析。

一個比較完備的音訊稽核產品可以從以下幾個角度進行設計。

(1)

功能介面

:提供好用的API和SDK能力,包括資料請求分析、資料結果查詢、規則定義介面(比如新增違規詞等)等介面。

在設計時,需要設定好欄位的支援力度,比如對於請求時要支援URL,同時是否需要支援音訊稽核模板(模板這裡是指一段音訊全部稽核,還是根據模板中選定的稽核維度進行稽核,比如只稽核涉黃)。

(2)

視覺化介面

:建議同步提供視覺化介面便於接入的使用者進行資料檢視,視覺化介面不僅可以提高使用者體驗,也可以輔助使用者進行產品使用。

一般視覺化介面可以包括以下幾點。

音訊分析

:除了介面外,使用者可以在視覺化介面上傳音訊檔案進行分析,分析後可以檢視分析結果

規則設定

:支援使用者自定義設定違規的內容,比如設定違規廣告詞、涉政敏感詞等;

資料統計

:可以包括兩個部分,一部分是統計資料分析的量級,以及分析成功失敗的次數等;另一方面以違規型別進行統計違規次數,比如某段時間內廣告違規發生了多少,涉黃內容發生了多少等;

注:除了上述三點,還可以支援使用者管理,比如使用者可以在系統中建立使用者賬號,支援不同業務系統使用等。

4. 評估指標

評估指標需要考核兩個方面。

違規識別準確率

:統計機器識別為違規並且人工複核確認違規的資料量/機器識別違規的資料總量;

違規識別召回率

:統計機器識別為違規並且人工複核確認違規的資料量/實際存在的違規數量。

音訊稽核的發展對音訊市場擴大可以起到很好的輔助作用,對內容釋出的監管可以實現降本增效。

但是在實際使用過程中,我們還需要思考業務應用場景,針對場景進一步迭代最佳化技術,比如車載場景的音訊內容是否可以很好稽核呢。

目前還存在很大的難度,因為車載場景的音訊容易受到很多噪聲的影響,所以不利於識別。

因此,總的來說,對於產品,需要能夠結合業務做到場景可控,讓AI真正發揮作用。

本文由@Eric_d 原創釋出於人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基於CC0協議。