奧推網

選單
科技

超越CLIP的多模態模型,只需不到1%訓練資料!南加大最新研究來了

羿閣 發自 凹非寺

量子位 | 公眾號 QbitAI

火爆全網的AI繪畫你玩了嗎?

女媧無限版、DALL·E2、Imagen……這些透過文字生成影象的AI繪畫工具,背後的原理都是一個叫“CLIP”的模型,它是AI如何“理解”人類語義這一問題的關鍵。

CLIP

(Contrastive Language–Image Pre-training)

,是一種基於對比的圖片-文字學習的跨模態預訓練模型,由OpenAI於去年1月釋出。

它好用是好用,但一個大問題是資料需求太大:4億個影象文字對、256個GPU,這對許多公司和個人都很不友好。

對此,南加州大學的最新研究發現了一種基於本體的課程學習

(Curriculum Learning)

演算法,只需不到1%的訓練資料就能達到CLIP同款效果,甚至在影象檢索方面表現更好。

新方法名為TOnICS

(Training with Ontology-Informed Contrastive Sampling)

,相關論文已上傳到arXiv。

原理介紹

在介紹新方法之前,首先需要回顧一下CLIP。

CLIP的模型結構其實非常簡單:包括兩個部分,即文字編碼器和影象編碼器。

兩者分別編碼後,將文字和視覺嵌入對映到相同空間中,使用對比學習的思想,將匹配的圖片-文字Embedding的距離拉近,將不匹配的Embedding拉遠。

在此基礎上,TOnICS沒有選擇從頭訓練影象和文字編碼器,而是把單模態預訓練模型BERT用於文字編碼,微軟的VinVL用於影象編碼,並使用InfoNCE損失函式將它們彼此對齊。

這是一種基於本體的課程學習演算法,從簡單的樣本開始訓練,方法是隨機抽樣小批次,並透過在影象和文字輸入中加入相似的小批次資料,逐步加大對比任務的難度。

舉個例子,在隨機抽樣生成的小批次資料中,如果想找到“一條叼著飛盤在草地上奔跑的狗”,只需要先找畫面中有狗的圖片即可,因為隨機生成的影象中包含狗的機率非常小。

也就意味著,隨機小批次抽樣將對比任務簡化為了物件匹配。

但當對小批樣進行取樣時,會抓取到很多畫面中有狗的相似圖片,因此僅靠識別圖片中是否有狗已經不能解決問題了,該模型必須共享上下文級資訊的語言和視覺表示,從而產生更細粒度的對齊。

此外,不同於CLIP從網際網路收集構建了4億個影象-文字對的資料集,BERT-VinVL模型只需不到1%的訓練量,但效果並沒有打折扣。

研究人員在MS-COCO和Conceptual Captions上訓練BERT-VinVL模型,並將該模型與下游檢索任務上的CLIP進行比較。

實驗結果發現,BERT-VinVL模型同樣能達到零樣本學習效果,甚至在影象檢索上表現更好

( R@1 提高了 1。5%)

研究團隊

該篇論文來自南加州大學的研究團隊,作者分別是Tejas Srinivasan、Xiang Ren和Jesse Thomason。

第一作者Tejas Srinivasan,是南加州大學GLAMOR實驗室的一年級博士生,跟隨助理教授Jesse Thomason進行多模態機器學習和語言基礎領域的研究。

他曾在微軟研究院實習,並在人工智慧基金會短暫地擔任過 NLP 研究科學家。

之前在卡內基梅隆大學語言技術學院完成了碩士學位,本科畢業於孟買印度理工學院機械工程專業,輔修計算機科學學位。

參考連結:

[1]https://tejas1995。github。io/

[2]https://twitter。com/tejubabyface_/status/1554152177035186178

[3]https://arxiv。org/abs/2207。14525