多工學習，如何設計一個更好的引數共享機制?| AAAI 2020

作者 | 孫天祥

編輯 | 劉萍

原文標題：

稀疏共享:

當多工學習遇見彩票假設

本文介紹了復旦大學邱錫鵬團隊在AAAI 2020 上錄用的一篇關於多工學習的工作：《Learning Sparse Sharing： Architectures for Mltiple Tasks》，這篇文章提出了一種

新的引數共享機制：

稀疏共享。這種共享機制能夠同時解決目前主流的三種共享機制（硬共享、軟共享、分層共享）的限制問題。

目前這篇文章已經開源。

論文連結：

https：//arxiv。org/abs/1911。0503

程式碼連結：https：//github。com/choosewhatulike/sparse-sharing

多工學習（Multi-Task Learning）是一種聯合多個任務同時學習來增強模型表示和泛化能力的一種手段，

目前大都透過引數共享來實現多工學習

。因此，很多多工學習的工作都集中在尋找更好的引數共享機制上。

已有的工作提出了很多引數共享策略

，其中使用的較多的有硬共享，軟共享，分層共享，另外還有一些比較新穎的值得探索的共享機制，比如梯度共享，元共享等等。這裡簡要介紹使用較多的三種共享機制（硬共享、軟共享、分層共享）來引出本文的動機。

硬共享

是目前應用最為廣泛的共享機制，它把多個任務的資料表示嵌入到同一個語義空間中，再為每個任務使用一任務特定層提取任務特定表示。

硬共享實現起來非常簡單，適合處理有較強相關性的任務，但遇到弱相關任務時常常表現很差。

軟共享

為每個任務都學習一個網路，但每個任務的網路都可以訪問其他任務對應網路中的資訊，例如表示、梯度等。

軟共享機制非常靈活，不需要對任務相關性做任何假設，但是由於為每個任務分配一個網路，常常需要增加很多引數。

分層共享

是在網路的低層做較簡單的任務，在高層做較困難的任務。

分層共享比硬共享要更靈活，同時所需的引數又比軟共享少，但是為多個任務設計高效的分層結構依賴專家經驗。

本文提出了一種新的引數共享機制，稀疏共享（sparse sharing），試圖同時處理上述三個限制。

目前常用的引數共享機制和本文提出的稀疏共享機制

給定一個基網路和多個任務的資料，稀疏共享可以為每個任務從基網路中抽取出一個對應的子網路來處理該任務，這些子網路部分重疊，我們的演算法可以為強相關的任務抽取出相似的子網路（具有較高的引數重疊率），為弱相關的任務抽取出為差異較大的子網路（具有較低的引數重疊率）。得到這些子網路後，再使用多個任務的資料聯合訓練。

方法

本文演算法分為兩個階段：（a）為每個任務生成子網路；（b）多工聯合訓練。

1、為每個任務生成子網路

這裡生成子網路演算法使用了獲得ICLR‘2019最佳論文獎的彩票假設（The Lottery Ticket Hypothesis）中提出的迭代數量級剪枝方法。

假設基網路引數為

，則任務

對應的子網路的引數可以表示為

，其中

表示元素為 0 或 1 的Mask矩陣。對每個任務獨立的執行迭代剪枝，得到每個任務對應的Mask矩陣，也就得到了每個任務的子網路。

值得注意的是，當所有任務的Mask矩陣

時，稀疏共享等價於硬共享；考慮兩個任務，任務1的Mask矩陣在網路的第一層為全 1，第二層為全 0，即

，任務2的Mask矩陣為全1，即

，則任務1和任務2構成了分層共享架構。

因此，硬共享和分層共享都可以視作稀疏共享的特例。

為每個任務生成子網路

上面的演算法為每個任務都生成了

個子網路，現在需要從中挑選出一個子網路作為最後多工訓練使用的子網路。這裡採取了一種簡單的啟發式做法，即選擇在驗證集上表現最好的子網路。

2、多工聯合訓練

在得到每個任務的子網路之後，將其合併也就得到了多工稀疏共享結構，接著使用多個任務的資料進行聯合訓練：

1）隨機挑選一個任務；

2）為任務隨機取樣一個batch資料；

3）將該batch資料輸入到任務對應的子網路中；

4）使用該batch資料的梯度更新子網路的引數；

5）回到 1）。

雖然訓練每個任務時都只用到了其對應的子網路，但子網路的一部分引數可能被多個任務同時共享，因此這部分引數有機會被多個任務的訓練資料更新。這樣，相似的任務傾向於更新相同的部分引數，使其充分享受多工學習的收益，同時差異較大的任務傾向於更新互相隔離的部分引數，以避免任務之間互相傷害。

學習多工稀疏共享架構

實驗及分析

本文在三個序列標註任務（POS tagging、NER、Chunking）上進行了實驗，結果表明稀疏共享超越了單任務學習、硬共享、軟共享和分層共享的效果，同時所需引數量最少。

實驗結果

值得注意的是，多工學習並不總能帶來收益，有時聯合學習多個任務會對其中某個任務帶來效能損失，例如上表中陰影部分的資料。該現象在遷移學習和多工學習中廣泛存在，常被稱為

負遷移（negative transfer）

。

然而，

在本文的實驗中，稀疏共享並沒有出現負遷移現象

。為了進一步探索稀疏共享在避免負遷移方面的能力，本文又構造了一個弱相關多工學習的場景，該場景包含兩個任務：

真實的NER任務；構造的假任務，位置預測（position prediction， PP），即讓句子中的每個單詞預測其自身在句中位置。

NER和PP兩個任務並無太大相關性，結果表明硬共享框架下同時學習兩個任務嚴重傷害的NER任務的效能，而稀疏共享則由於引數隔離避免了負遷移。

稀疏共享有助於避免負遷移

另外，本文提供了一種新的衡量任務相關性的指標：引數重疊率（overlap ratio， OR）。怎麼驗證OR反映了任務相關性呢？

本文藉助了一箇中間工具：

硬共享

。硬共享非常適合處理強相關任務，通常任務相關性越弱硬共享效果越差。

直覺上，在任務相關性越弱的場景下，稀疏共享相比硬共享的提升越多，因此我們可以考察稀疏共享相比硬共享的提升與OR是否正相關來驗證OR是否可以反映任務相關性。為此，把上述三個任務兩兩組合得到三個多工學習場景，結果如下：

引數重疊率反映了任務相關性

總結

目前得到稀疏共享架構的方法還存在一些問題，比如整個過程分為兩階段因此相比其他共享模式需要的時間更久，但這篇文章提出的目的主要是提出並驗證稀疏共享模式的可行性，而非具體的架構學習方法。我們正在，也歡迎其他研究者探索更高效的端到端的稀疏分享架構學習方法。

AAAI 論文解讀系列:

招聘

AI 科技評論希望能夠招聘

科技編輯/記者

一名

辦公地點：北京

職務：以參與學術頂會報道、人物專訪為主

工作內容：

1、參加各種人工智慧學術會議，並做會議內容報道；

2、採訪人工智慧領域學者或研發人員；

3、關注學術領域熱點事件，並及時跟蹤報道。

要求：

1、

熱愛人工智慧學術研究內容

，擅長與學者或企業工程人員打交道；

2、有一定的理工科背景，對人工智慧技術有所瞭解者更佳；

3、英語能力強（工作內容涉及大量英文資料）；

4、學習能力強，對人工智慧前沿技術有一定的瞭解，並能夠逐漸形成自己的觀點。

感興趣者，可將簡歷傳送到郵箱：jiawei@leiphone。com

奧推網

多工學習，如何設計一個更好的引數共享機制?| AAAI 2020

相關文章閱讀