文字影象也能生成，這家ai公司推出影象版gpt-3，你怎麼看？

繼 OpenAI 推出史上最強語言模型 GPT-3 後，這家舊金山 AI 研究公司又有新動作。

這次，他們一連推出兩款強大的多模態模型 CLIP 和 DALL？E，CLIP 可以對影象進行理解、歸類，而 DALL？E 則可以直接藉助文字生成影象，簡直就是 “影象版 GPT-3”。

OpenAI 在官博中介紹，DALL？E 是 GPT-3 的 120 億引數版本，如此龐大的資料集，足以讓它發揮 “想象力” 創造出那些不同尋常的影象。

你只用簡單描述一下想要的影象特徵，比如 “一個高質量的龜兔插圖” “一隻模仿烏龜的兔子” “一隻烏龜做成的兔子”，DALL？E 就可以生成以下影象，堪稱幫助設計師 “開腦洞” 的神器。

圖｜DALL？E 生成的 “烏龜 - 熊貓” 圖和 “烏龜 - 兔子” 圖

該模型一經發表，再次引燃 AI 圈。人工智慧和機器學習領域的國際權威學者吳恩達，就用 DALL？E 模型生成了多張藍色襯衫搭配黑色長褲的影象，併發推文對 OpenAI 表示祝賀，他認為這個成果很酷。

圖｜吳恩達的推文

佐治亞理工學院（Georgia Institute of Technology）研究 NLP 和計算創造力的馬克？裡德爾（Mark Riedl）說，“文字 - 影象轉換一直是一項研究挑戰，儘管已經存在一段時間了，但這組示例令人印象深刻。”

OpenAI 首席科學家伊利亞？薩茨克維爾（Ilya Sutskever）表示，“我們生活在一個視覺世界中。從長遠來看，你將擁有既能理解文字又能理解影象的模型。”“人工智慧將能夠更好地理解語言，因為它可以理解單詞和句子的意思。”

DALL？E 和 CLIP 讓 AI 更好的與現實連線

基於 GPT-3，OpenAI 展示了一個強大的自然語言處理模型，擁有 1750 億超大引數的 GPT-3 讓網友 “玩開了花”，不僅可以寫文章，還能寫詩、寫歌、寫菜譜，憑藉驚人的文字生成能力，一直保持著超高熱度。

儘管 GPT-3 很強大，但它的輸出卻讓人有種與現實脫節的感覺，好像它根本不知道自己在說什麼，這一點人們也經常拿來調侃。

如今，OpenAI 和其他機構的研究人員，正試圖透過將文字根植於影象中，讓語言模型用人類理解事物概念的方式來訓練。他們將這些想法結合在一起，建立了兩個新模型，分別名為 DALL？E 和 CLIP ，將語言和影象結合在一起，使人工智慧更好地理解詞彙及其所代表的含義。

如果說 GPT-3 能模擬人類如何使用詞彙，DALL？E 則能夠預見我們所看到的，就彷彿它擁有了想象力。

如果讓你想象一個牛油果形狀的扶手椅，你會和它 “想” 的一樣嗎？如下圖，它生成的這些扶手椅設計已經十分貼近現實了，如果再讓它生成一款牛油果咖啡桌呢？這充滿現代感的設計似乎真的可以為設計師提供啟發。

參與 DALL？E 工作的阿迪亞？拉梅什（Aditya Ramesh）表示，“最讓我驚訝的是，這個模型可以把兩個不相關的概念聯絡在一起，並賦予其功能。” 他認為牛油果與扶手椅的融合最為自然，“可能是因為牛油果被切一半，看起來有點像高背扶手椅，而果核恰好可以充當靠墊。”

就像 GPT-3 一樣，DALL？E 同樣是基於一個僅有解碼器的 Transformer 架構，包含 1280 個文字和影象 token（文字佔 256 個，影象佔 1024 個），可以同時接收文字和影象作為單一資料流，並使用最大似然進行訓練，一個接一個地生成所有 token。

它的 64 個自注意力層（self-attention）中的每一個都具有注意力 mask（掩蓋詞、掩膜），使每個影象 token 都可以匹配文字 token。DALL？E 對文字 token 使用標準的因果 mask，以行、列或卷積注意模式對影象 token 使用稀疏注意，具體取決於層數。

OpenAI 團隊在其部落格文章中稱展示的結果並不是人工挑選的，而是透過另一款模型 CLIP 進行排序的，CLIP 會選出它認為最符合描述的 32 張影象。此過程也可以看作是一種語言指導的搜尋，會對樣本質量產生巨大影響。

如下圖所示，使用 CLIP 對 DALL？E 中的樣本進行重新排序，可以大大提高樣本的一致性和質量。

圖｜CLIP 可以對 DALL？E 中的樣本進行重新排序

據悉，OpenAI 計劃在下一篇論文中提供有關 DALL？E 架構和訓練過程的詳細資訊。

DALL？E 和 CLIP 是從兩個不同的方向來解決這個問題的。CLIP 是對蒐集到的圖片進行理解、分類，而 DALL？E 是根據文字生成圖片，兩個模型可以理解為互為逆過程。

圖｜CLIP 的預訓練過程

據瞭解，OpenAI 用高達 4 億的資料集來訓練 CLIP，它可以在各種各樣的影象上進行訓練，主打零樣本學習，攻克了計算機視覺領域中資料集昂貴和狹窄的問題。

將語言建立在視覺理解上是讓 AI 更加聰明的好方法

OpenAI 這次推出的多模態模型成果驚人，但仍然不盡完美。比如 DALL？E 根據 “畫著藍色草莓的彩色玻璃窗” 這一文字建立的影象就有些讓人迷惑，不僅摻雜著紅色草莓，而且有些影象抽象到看不出是窗戶或者草莓。

圖｜DALL？E 根據 “畫著藍色草莓的彩色玻璃窗” 這一文字建立的影象

再比如，OpenAI 工作人員 Aditya 認為以 “豎琴做成的蝸牛” 為文字生成的影象就很彆扭，影象中蝸牛和豎琴以奇怪的方式結合在一起。

圖｜DALL？E 生成的 “豎琴製成的蝸牛”

艾倫人工智慧研究所的阿尼？肯布哈維（Ani Kembhavi）說：“這個模型能從相當異想天開的文字中生成合成影象，這在我看來非常有趣。” 他的同事 Jaemin Cho 也對此印象深刻，“現有的文字 - 影象生成器還沒有顯示出繪製多個物件的控制水平，也沒有 DALL？E 的空間推理能力，” 他說。

佐治亞理工學院從事自然語言處理和計算創造力的馬克？裡德爾（Mark Riedl ）則大膽質疑該模型生成的卡通影象，“我對蘿蔔的例子有點懷疑，從風格上看，它可能記住了一些來自網際網路的藝術作品。DALL？E 所基於的 GPT-3 在記憶方面可是出了名的。” 他說。

圖｜DALL？E 根據 “穿著芭蕾舞短裙遛狗的小白蘿蔔” 這一文字生成的影象

儘管如此，大部分 AI 研究人員仍然認為，將語言建立在視覺理解上是讓 AI 更加聰明的好方法。

“未來的系統將由這樣的模型組成，它們都是朝著那個系統邁進的一步。”OpenAI 首席科學家 Ilya Sutskever 說。

奧推網