奧推網

選單
科技

文字影象也能生成,這家ai公司推出影象版gpt-3,你怎麼看?

繼 OpenAI 推出史上最強語言模型 GPT-3 後,這家舊金山 AI 研究公司又有新動作。

這次,他們一連推出兩款強大的多模態模型 CLIP 和 DALL?E,CLIP 可以對影象進行理解、歸類,而 DALL?E 則可以直接藉助文字生成影象,簡直就是 “影象版 GPT-3”。

OpenAI 在官博中介紹,DALL?E 是 GPT-3 的 120 億引數版本,如此龐大的資料集,足以讓它發揮 “想象力” 創造出那些不同尋常的影象。

你只用簡單描述一下想要的影象特徵,比如 “一個高質量的龜兔插圖” “一隻模仿烏龜的兔子” “一隻烏龜做成的兔子”,DALL?E 就可以生成以下影象,堪稱幫助設計師 “開腦洞” 的神器。

圖|DALL?E 生成的 “烏龜 - 熊貓” 圖和 “烏龜 - 兔子” 圖

該模型一經發表,再次引燃 AI 圈。人工智慧和機器學習領域的國際權威學者吳恩達,就用 DALL?E 模型生成了多張藍色襯衫搭配黑色長褲的影象,併發推文對 OpenAI 表示祝賀,他認為這個成果很酷。

圖|吳恩達的推文

佐治亞理工學院(Georgia Institute of Technology)研究 NLP 和計算創造力的馬克?裡德爾(Mark Riedl)說,“文字 - 影象轉換一直是一項研究挑戰,儘管已經存在一段時間了,但這組示例令人印象深刻。”

OpenAI 首席科學家伊利亞?薩茨克維爾(Ilya Sutskever)表示,“我們生活在一個視覺世界中。從長遠來看,你將擁有既能理解文字又能理解影象的模型。”“人工智慧將能夠更好地理解語言,因為它可以理解單詞和句子的意思。”

DALL?E 和 CLIP 讓 AI 更好的與現實連線

基於 GPT-3,OpenAI 展示了一個強大的自然語言處理模型,擁有 1750 億超大引數的 GPT-3 讓網友 “玩開了花”,不僅可以寫文章,還能寫詩、寫歌、寫菜譜,憑藉驚人的文字生成能力,一直保持著超高熱度。

儘管 GPT-3 很強大,但它的輸出卻讓人有種與現實脫節的感覺,好像它根本不知道自己在說什麼,這一點人們也經常拿來調侃。

如今,OpenAI 和其他機構的研究人員,正試圖透過將文字根植於影象中,讓語言模型用人類理解事物概念的方式來訓練。他們將這些想法結合在一起,建立了兩個新模型,分別名為 DALL?E 和 CLIP ,將語言和影象結合在一起,使人工智慧更好地理解詞彙及其所代表的含義。

如果說 GPT-3 能模擬人類如何使用詞彙,DALL?E 則能夠預見我們所看到的,就彷彿它擁有了想象力。

如果讓你想象一個牛油果形狀的扶手椅,你會和它 “想” 的一樣嗎?如下圖,它生成的這些扶手椅設計已經十分貼近現實了,如果再讓它生成一款牛油果咖啡桌呢?這充滿現代感的設計似乎真的可以為設計師提供啟發。

參與 DALL?E 工作的阿迪亞?拉梅什(Aditya Ramesh)表示,“最讓我驚訝的是,這個模型可以把兩個不相關的概念聯絡在一起,並賦予其功能。” 他認為牛油果與扶手椅的融合最為自然,“可能是因為牛油果被切一半,看起來有點像高背扶手椅,而果核恰好可以充當靠墊。”

就像 GPT-3 一樣,DALL?E 同樣是基於一個僅有解碼器的 Transformer 架構,包含 1280 個文字和影象 token(文字佔 256 個,影象佔 1024 個),可以同時接收文字和影象作為單一資料流,並使用最大似然進行訓練,一個接一個地生成所有 token。

它的 64 個自注意力層(self-attention)中的每一個都具有注意力 mask(掩蓋詞、掩膜),使每個影象 token 都可以匹配文字 token。DALL?E 對文字 token 使用標準的因果 mask,以行、列或卷積注意模式對影象 token 使用稀疏注意,具體取決於層數。

OpenAI 團隊在其部落格文章中稱展示的結果並不是人工挑選的,而是透過另一款模型 CLIP 進行排序的,CLIP 會選出它認為最符合描述的 32 張影象。此過程也可以看作是一種語言指導的搜尋,會對樣本質量產生巨大影響。

如下圖所示,使用 CLIP 對 DALL?E 中的樣本進行重新排序,可以大大提高樣本的一致性和質量。

圖|CLIP 可以對 DALL?E 中的樣本進行重新排序

據悉,OpenAI 計劃在下一篇論文中提供有關 DALL?E 架構和訓練過程的詳細資訊。

DALL?E 和 CLIP 是從兩個不同的方向來解決這個問題的。CLIP 是對蒐集到的圖片進行理解、分類,而 DALL?E 是根據文字生成圖片,兩個模型可以理解為互為逆過程。

圖|CLIP 的預訓練過程

據瞭解,OpenAI 用高達 4 億的資料集來訓練 CLIP,它可以在各種各樣的影象上進行訓練,主打零樣本學習,攻克了計算機視覺領域中資料集昂貴和狹窄的問題。

將語言建立在視覺理解上是讓 AI 更加聰明的好方法

OpenAI 這次推出的多模態模型成果驚人,但仍然不盡完美。比如 DALL?E 根據 “畫著藍色草莓的彩色玻璃窗” 這一文字建立的影象就有些讓人迷惑,不僅摻雜著紅色草莓,而且有些影象抽象到看不出是窗戶或者草莓。

圖|DALL?E 根據 “畫著藍色草莓的彩色玻璃窗” 這一文字建立的影象

再比如,OpenAI 工作人員 Aditya 認為以 “豎琴做成的蝸牛” 為文字生成的影象就很彆扭,影象中蝸牛和豎琴以奇怪的方式結合在一起。

圖|DALL?E 生成的 “豎琴製成的蝸牛”

艾倫人工智慧研究所的阿尼?肯布哈維(Ani Kembhavi)說:“這個模型能從相當異想天開的文字中生成合成影象,這在我看來非常有趣。” 他的同事 Jaemin Cho 也對此印象深刻,“現有的文字 - 影象生成器還沒有顯示出繪製多個物件的控制水平,也沒有 DALL?E 的空間推理能力,” 他說。

佐治亞理工學院從事自然語言處理和計算創造力的 馬克?裡德爾(Mark Riedl )則大膽質疑該模型生成的卡通影象,“我對蘿蔔的例子有點懷疑,從風格上看,它可能記住了一些來自網際網路的藝術作品。DALL?E 所基於的 GPT-3 在記憶方面可是出了名的。” 他說。

圖|DALL?E 根據 “穿著芭蕾舞短裙遛狗的小白蘿蔔” 這一文字生成的影象

儘管如此,大部分 AI 研究人員仍然認為,將語言建立在視覺理解上是讓 AI 更加聰明的好方法。

“未來的系統將由這樣的模型組成,它們都是朝著那個系統邁進的一步。”OpenAI 首席科學家 Ilya Sutskever 說。