奧推網

選單
科技

對話微眾銀行楊強:聯邦學習的問題何解、前景何方

資料安全、隱私保護、資料孤島是AI時代遇到的普遍難題。

在人工智慧的發展道路上,除了演算法、算力的要求,“餵養”人工智慧模型需要海量、多維資料進行模型訓練。在此過程中,資料安全、個人資料隱私等風險事件頻發,資料孤島現象頻現。隱私與資料保護越發得到重視,相關的法律法規日漸嚴格和完善。

在此背景下,“聯邦學習”為以上問題的解決提供了一個可行方案。

所謂“聯邦學習”,其基本思想是建立一個共有模型,各個參與者的身份和地位相同,透過加密機制下的引數交換方式,實現不同企業、不同部門所擁有的資料不交換、不移動。在不違反資料隱私保護法律法規的前提下,模型利用全量資料進行訓練和模型最佳化,從而得到最優模型結果。

香港科技大學計算機與工程系講座教授和前系主任、中國人工智慧學會(CAAI)榮譽副理事長、微眾銀行首席人工智慧官楊強教授曾以羊與草為喻,形容聯邦學習的思路所在。

假設用一隻羊來類比機器學習模型,我們希望羊吃了草以後能夠長大。過去的做法是,把草買到一起來建立模型。羊不動,但是草被購買到中心。相當於用簡單粗暴的辦法來獲取資料,形成大資料,來建立模型。

但我們希望能夠保護各自的隱私,所以讓草不動,讓羊動。也就是說,我們帶著模型到不同的草場去訪問,那麼久而久之羊就長大了——這個就是聯邦學習的新思路,就是讓草不出草場,本地主人無法知道羊吃了哪些草,但是羊還是長大了。

“聯邦學習”在解決資料共享和資料隱私保護領域展現出強大的吸引力。到目前為止,聯邦學習已在金融、廣告營銷等方面獲得落地。

比如,網際網路平臺推送“千人千面”式的營銷資訊時,其背後的推薦模型就需要大量用到使用者的特徵資料。但單一企業只擁有使用者的一部分特徵資料,如果可以接入更多其他網際網路企業的資料或者是投放廣告主關於使用者的資料,那麼將大幅提升廣告推薦的效果,既能提升點選率也可以提升廣告主的ROI,聯邦學習的出現就很好的解決了這個問題。

金融領域同樣如此,單個金融機構掌握的使用者資訊較少,除了個人徵信系統之外,各平臺數據之間彼此是不互通的。聯邦學習的出現同樣讓各大金融機構之間可以聯合建模,對於使用者的資質進行全面客觀的評價,降低貸款的違約率和資產的不良率。

不過在現實中,“聯邦學習”商業應用仍然面臨一些問題,且其在技術研究中也仍然存在一些難點有待突破。

比如,如何在效率、效能與安全性之間取得平衡是一個難題。目前“聯邦學習”系統嚴格保護使用者本地資料不外洩,只傳輸模型更新,而且即使是模型更新,也會對模型進行加密後再傳輸。對於更復雜的加密系統,就意味著回傳也需要更多的資源和實踐去解密。效率、效能與安全性之間有此存在衝突。

再如,“聯邦學習”面臨著的“資料下毒”的威脅。聯邦學習的分散式特點以及安全聚合機制往往讓資料造假變得更容易,更難被發現和舉證。每一方都有可能透過構造“資料下毒”來控制整個模型的訓練結果。

經過數年發展,“聯邦學習”究竟在技術和商業應用層面有何發展?

對此,鈦媒體App近日專訪了楊強教授,楊強是國內聯邦學習領域的知名學者。2018年,楊強帶領的微眾銀行AI團隊在國內國內引進了並延展了聯邦學習(Federated Learning)概念,在國際首次系統性提出聯邦學習理論。2019年,微眾銀行AI團隊開源了首個工業級聯邦學習技術框架FATE,同年6月捐獻給Linux基金會。

不久前,楊強教授的團隊與上海交通大學、中山大學等機構聯合撰寫的三篇論文被IJCAI 2022、TPAMI 2022、ACM TIST等國際人工智慧頂級學術期刊和頂級學術會議收錄發表。三篇論文分別為:《聯邦學習中隱私與模型效能沒有免費午餐定理》、《FedCG: 聯邦生成對抗網路保護隱私保障效能》、《FedIPR:聯邦學習模型所屬權驗證》。

在楊強教授的回答中,有三點觀點值得關注。首先,在聯邦學習的隱私保護、模型效能、演算法效率三者需要平衡,且可以平衡,目前楊強教授的團隊已經找到了一條在更好的隱私保護能力的同時,讓模型效能上也具有競爭力的一條道路。

其次,長遠來看,隨著社會數智化的發展、資料要素的流通、資料交易所的落地,資料的定價、資料智慧財產權的認證,資料安全隱私的保護等環節都離不開聯邦學習,這也是聯邦學習發展的最大機遇。

第三,讓技術和法律法規結合起來是一大挑戰。關鍵是要讓整個聯邦學習決策過程變得可解釋、透明,並且可監管、可問詢、可追蹤。

以下是鈦媒體App與楊強

教授

的採訪實錄,經編輯後釋出:

解讀三篇論文:從理論到實踐,再到規模化和工程化

解讀三篇論文:從理論到實踐,再到規模化和工程化

問:近期發表的

3

篇論文,分別是從資訊理論、聯邦學習效率提升以及模型版權驗證切入,為什麼會選擇這

3

個角度作為研究的切入?背後有怎樣的研究路徑和規劃?

計算機學科的發展往往是先有理論再有實踐,然後進一步發展理論,我們現在處於第三步,那麼這一步的理論要解決的問題是什麼?

首先,我們要注意聯合建模的安全性(這個是大家特別關心的)和聯合建模的可用性。如果只是一個極端安全的模型,沒有人能用,這東西也沒用。模型質量要好、準確率高,同時訓練速度要快,要安全,需要這三點的平衡。

基於這三點的平衡,我們就要做下面幾件事,第一件事,是要證明這其中確實是需要做平衡的。因此,我們釋出的文章《聯邦學習中隱私與模型效能沒有免費午餐定理》闡述,聯邦學習的隱私和模型效能是沒有免費午餐。兩者必須要做出權衡和取捨。

第二,在聯邦學習的安全和效率之間,有沒有可能很聰明地發明一些演算法,能夠實現安全性和模型的效能,以及準確率的同時提升。我們發表 《FedCG:聯邦條件對抗生成網路》闡述了,我們可以在每一個參與方都建立一個它的映象模型,然後讓這些映象模型之間互相溝通,這樣就大大的降低了隱私洩露的可能性,同時我們建模效率和效果都大為提升。

關於最後一篇文章,聯邦學習不僅僅是一個訓練、一個模型,而是從資料的收集、選擇,模型的訓練,到模型的治理,直至模型和別人進行交換。在這種情況下,我們就提出了“全生命週期的聯邦學習的模型治理”。

具體來說,模型治理其實和資料治理一樣重要。未來的世界我們看到是一個數字化的世界,而數字都是以模型的形式出現。但是,每個模型是誰做出來的,誰用過,誰從誰那買的,這個模型有什麼危險性,有什麼特別性等等,這些問題我們都叫模型的所屬權驗證。而在模型裡面加入水印實現歸屬權的驗證,目前在業界我們是第一個做出來。

我們基於這3個不同的角度,從理論到實踐,到規模化,到工程化生命週期管理,應該說是一個全面的概括。這是“可信聯邦學習”的一個里程碑。

楊強:

行業應用及商業前景

行業應用及商業前景

越來越多的行業在提數字化和智慧化,聯合起來就是數智化。數智化的過程,離不開一個觀念,就是資料要素的流通,資料從一個地方流到另外一個地方,透過資料交易所進行交易。所以需要對資料進行定價,資料的智慧財產權要有認證,資料的安全隱私要有保護,這些要求是未來金融的一些重要的特徵,而所有這些都離不開聯邦學習,聯邦學習實現這些目標的一個有力工具。

未來要注意的一個重要方面,就是如何有機地讓技術和法律法規結合起來。現在有資料安全法,還有很多金融行業的一些規章制度,其中有一部分是可以用技術來實現的,但是有一部分是需要有法律和監管來實現的,這兩方面的有機結合,我們現在正在嘗試。我們要做到這種無縫的對接,能夠既有技術的保證,又有法律和規章的保證,同時又需要讓整個決策過程變得可解釋,透明,並且可監管、可問詢、可追蹤,這些都是我們所面臨的一些挑戰。

問:從目前的應用,到未來可以預見的一些場景,聯邦學習會產生哪幾方面的影響?在與行業結合的過程中,還有什麼問題需要注意?

楊強:

其實他們就像任何技術一樣,是需要滿足自然的發展規律的,比方說一個技術的出現,先適用在一些案例上,取得了成功,於是各方都想積極地參與試用,會發現一些挑戰,會有一些新的解決方案,讓這些技術進行升級,這樣最後能夠成熟到大家都普遍使用,所以聯邦學習和剛才所說的這些技術,也是一樣的,要滿足這樣的規律的。

這其中的市場空間應該是很廣泛的,在我個人看來,未來的計算,一定是資料和模型的計算。為了保護資料安全和使用者隱私,在我們管道里跑的不應該是原始資料,應該是由資料產生的模型,而模型的交流組合、更新迭代,認證審計,這些都需要我們整個人工智慧行業和大資料行業的升級迭代,都離不開聯邦學習。

問:從商業化的角度來看,聯邦學習未來的商業潛力是怎樣的?