奧推網

選單
科技

人工智慧+機器學習:一個被嚴重低估的領域,能否成為未來趨勢

資料質量低下正嚴重損害人工智慧(AI)與機器學習(ML)技術的實際表現。這個問題困擾著不同規模的企業,從小型初創公司到谷歌這類科技巨頭都無法倖免於難。但資料質量為什麼總不可靠?人為因素可能才是關鍵所在。

如今,企業手中掌握的資料總量遠超以往任何時候,但將這些資料轉化為實際價值卻仍然困難重重。AI與ML帶來的自動化功能,已被廣泛視為解決現實資料複雜難題的有效手段;眾多公司也迫切希望利用它們增強自身業務。但是,這種熱潮本身,也引起大量上游資料分析專案的匆忙上馬。

在自動化管道構建完成之後,其中的演算法已經能夠完成大部分工作,而且幾乎不需要更新資料收集過程。但請注意,管道建成並不代表它可以一勞永逸地永遠運作。我們需要隨時間推移不斷探索並分析底層資料,關注哪些漂移模式正不斷侵蝕管道效能。

好訊息是,資料團隊完全有能力降低這種侵蝕風險,但成本就是付出必要的時間與精力。為了維持自動化管道的執行效率,我們必須定期進行探索性資料分析(EDA),保證整個體系始終精準執行。

探索性資料分析是什麼?

EDA是成功實現AI與ML的第一步。在分析演算法本體之前,我們首先需要理解資料內容。資料質量,終將決定下游分析管道的實際效果。在正確起效之後,EDA將幫助使用者識別出資料中不必要的模式與噪聲,同時指導企業更準確地選取適當演算法。

在EDA階段,我們需要積極查詢資料以確保其中的行為模式合乎預期。首先,先從以下十個需要全面分析的重要問題起步:

1、是否擁有充足的資料點?

2、資料中心與離散的量度,是否與預期相符?

3、有多少個數據點質量良好、可用於實際分析?

4、是否存在缺失值?這些壞值是否構成資料中的重要部分?

5、資料的經驗分佈如何?資料是否符合正態分佈?

6、數值中是否存在特殊聚類或分組?

7、是否存在離群值?應如何處理這些離群值?

8、不同維度間是否具有相關性?

9、是否需要透過重新格式化等手段進行資料轉換,以供下游分析及解釋?

10、如果資料為高維形式,是否能夠在不損失過多資訊的前提下降低維數?其中某些維度是否屬於噪聲?

這些問題又會衍生出更多問題。這不是完整的問題清單,而僅僅只是思考的開始。最終,希望大家能對現有資料模式建立起更好的理解,而後正確處理資料並選擇最適合的處理演算法。

底層資料一直在不斷變化,這就要求我們在EDA上引入更多時間,確保演算法接收到的輸入特徵始終保持穩定。例如,Airbnb發現,資料科學家在模型開發週期中近七成的時間被用於資料收集與特徵工程,透過大量分析工作確定資料結構與模式。簡而言之,如果不花時間理解這些資料,那麼AI與ML計劃將極易失控。

唯一不變的,只有變化

目前,數字服務中最重要的應用集中在網路安全與欺詐檢測層面,這部分市場的總價值已經超過300億美元。預計到2030年左右,市場總值有望超過1000億美元。雖然Amazon Fraud Detector及PayPal Fraud Management Filters等工具已經在抗擊網路欺詐方面發揮作用,但欺詐檢測中唯一不變的只有變化本身。企業需要不斷為新的欺詐行為做好準備,而欺詐一方也在努力“創新”保證自己的攻擊能力。

每種新型欺詐往往都包含前所未有的資料模式。例如,新使用者在註冊與交易時往往對應AI系統未曾見過的郵政編碼。雖然新使用者可能來自四面八方,但如果註冊地真的特別生僻,我們最好提高警惕。

這類計算中最困難的部分,是讓AI模型準確辨別欺詐交易與正常交易。作為資料科學家,我們需要先引導底層演算法初步理解正常交易與欺詐交易的特徵,之後再由它慢慢探索更多欺詐檢測途徑。後續學習,離不開由統計技術搜尋到的大量資料。使用者可以剖析客戶群體,確定普通客戶與欺詐者之間的區別;之後提取出有助於進行準確分類的資訊,具體涵蓋註冊資訊、交易內容、客戶年齡、收入水平、姓名等等。需要注意的是,將正常交易標記為欺詐行為,對客戶體驗及產品聲譽造成的損害往往比欺詐本身更大。

更“有趣”的一點在於,EDA是個需要在整個產品生命週期內不斷重複的過程。新的欺詐活動,必然對應著新的資料模式。最終,企業需要投入大量時間與精力推進EDA,藉此保持最佳欺詐檢測能力以維持AI與ML管道的正常運作。

總之,AI與ML的成功源自對資料的深刻理解,而非大量演算法的盲目堆疊。

AI與ML管道應該適應資料,而不要指望資料能適應使用者的現有管道。只有滿足這些條件,AI與ML支撐起的新業務才有望勇猛精進、一路向前。