超越CLIP的多模態模型,只需不到1%訓練資料!南加大最新研究來了

羿閣發自凹非寺

量子位 | 公眾號 QbitAI

火爆全網的AI繪畫你玩了嗎？

女媧無限版、DALL·E2、Imagen……這些透過文字生成影象的AI繪畫工具，背後的原理都是一個叫“CLIP”的模型，它是AI如何“理解”人類語義這一問題的關鍵。

CLIP

（Contrastive Language–Image Pre-training）

，是一種基於對比的圖片-文字學習的跨模態預訓練模型，由OpenAI於去年1月釋出。

它好用是好用，但一個大問題是資料需求太大：4億個影象文字對、256個GPU，這對許多公司和個人都很不友好。

對此，南加州大學的最新研究發現了一種基於本體的課程學習

（Curriculum Learning）

演算法，只需不到1%的訓練資料就能達到CLIP同款效果，甚至在影象檢索方面表現更好。

新方法名為TOnICS

（Training with Ontology-Informed Contrastive Sampling）

，相關論文已上傳到arXiv。

原理介紹

在介紹新方法之前，首先需要回顧一下CLIP。

CLIP的模型結構其實非常簡單：包括兩個部分，即文字編碼器和影象編碼器。

兩者分別編碼後，將文字和視覺嵌入對映到相同空間中，使用對比學習的思想，將匹配的圖片-文字Embedding的距離拉近，將不匹配的Embedding拉遠。

在此基礎上，TOnICS沒有選擇從頭訓練影象和文字編碼器，而是把單模態預訓練模型BERT用於文字編碼，微軟的VinVL用於影象編碼，並使用InfoNCE損失函式將它們彼此對齊。

這是一種基於本體的課程學習演算法，從簡單的樣本開始訓練，方法是隨機抽樣小批次，並透過在影象和文字輸入中加入相似的小批次資料，逐步加大對比任務的難度。

舉個例子，在隨機抽樣生成的小批次資料中，如果想找到“一條叼著飛盤在草地上奔跑的狗”，只需要先找畫面中有狗的圖片即可，因為隨機生成的影象中包含狗的機率非常小。

也就意味著，隨機小批次抽樣將對比任務簡化為了物件匹配。

但當對小批樣進行取樣時，會抓取到很多畫面中有狗的相似圖片，因此僅靠識別圖片中是否有狗已經不能解決問題了，該模型必須共享上下文級資訊的語言和視覺表示，從而產生更細粒度的對齊。

此外，不同於CLIP從網際網路收集構建了4億個影象-文字對的資料集，BERT-VinVL模型只需不到1%的訓練量，但效果並沒有打折扣。

研究人員在MS-COCO和Conceptual Captions上訓練BERT-VinVL模型，並將該模型與下游檢索任務上的CLIP進行比較。

實驗結果發現，BERT-VinVL模型同樣能達到零樣本學習效果，甚至在影象檢索上表現更好

（ R@1 提高了 1。5%）

。

研究團隊

該篇論文來自南加州大學的研究團隊，作者分別是Tejas Srinivasan、Xiang Ren和Jesse Thomason。

第一作者Tejas Srinivasan，是南加州大學GLAMOR實驗室的一年級博士生，跟隨助理教授Jesse Thomason進行多模態機器學習和語言基礎領域的研究。

他曾在微軟研究院實習，並在人工智慧基金會短暫地擔任過 NLP 研究科學家。

之前在卡內基梅隆大學語言技術學院完成了碩士學位，本科畢業於孟買印度理工學院機械工程專業，輔修計算機科學學位。

參考連結：

［1］https：//tejas1995。github。io/

［2］https：//twitter。com/tejubabyface_/status/1554152177035186178

［3］https：//arxiv。org/abs/2207。14525

奧推網