宋朝名畫“虎戴VR”,在外網火了

金磊 Alex 發自凹非寺

量子位 | 公眾號 QbitAI

誰能曾想，

宋朝

的

老虎們

，有一天能在國外被玩兒火了。

事情是這樣的。

前不久

谷歌

不是出了個AI創作神器

Imagen

嘛。

只要你給一句話，它就能生成符合語意的圖片。

然後腦洞大開的國外網友們，不按套路地給Imagen出了道題：

給宋代的

東方老虎

佩戴

。

Imagen也沒在怕的，“啪的一下”就給出了一幅力作——

《虎戴VR》

。

還別說，這幅《虎戴VR》還真是有點那味了。

不僅是畫風上，VR頭戴跟老虎以及整幅畫作能夠保持一致。

就連手柄、雙虎嬉戲的感覺也都一步到位地畫了出來。

然後還有兩隻老虎戴VR，

手牽著手

一起

“恰恰恰”

的：

甚至Imagen還別出心裁地設計了個

“連線”版VR

（可能在面對面看片吧）

：

但畢竟在AI作畫這事上，除了谷歌Imagen之外還有很多神器。

於是，一場《虎戴VR》作畫大戰就此拉開序幕。

（猜猜誰家的畫更有“心有猛虎，細嗅薔薇”的味道

）

DALL-E也來請戰

首先來應戰的，定然是

OpenAI

家的

DALL·E

。

網友Jacob出於好奇，便用它做了幾幅來做比較。

首先是滿滿“定妝照”風格的《虎戴VR》

（很颯啊）

：

不難看出，DALL·E的畫作和Imagen在風格上還是有很大的區別。

Imagen的畫作更趨於簡約線條風，而DALL·E則更多了些許油畫的元素。

不過在意境方面，DALL·E也是能夠產出“雙虎嬉戲”，甚至是擬人的畫作：

二者相比之下，網友們給出了他們的評價：

大多數網友們對谷歌家的Imagen更買單。

而除了它倆之外，像AI繪畫神器

MidJourney

也參與到了此次“大戰”。

不過它的作品，就顯得略有些詭異了……

DALL·E VS Imagen

那麼，同樣作為AI創作神器，最近大火的Imagen和DALL·E為何畫風會截然不同呢？

Open AI的DALL·E和谷歌的Imagen，都可以直接透過文字描述生成類似超現實主義的影象，讓機器也能擁有設計師般的創造力。

不過，二者的“創作”原理大相徑庭。

DALL·E 2

採用

CLIP

將文字特徵對映到影象特徵，然後指導一個GAN或擴散模型生成影象。

所謂CLIP，是一個在各種影象和文字上訓練的神經網路，對生成的多張圖片進行排序，挑選出更好的生成結果進行展示。

而谷歌的

Imagen

則使用純語言模型只負責編碼文字特徵，把文字到影象轉換的工作丟給了影象生成模型。

語言模型部分使用的是谷歌自己的T5-XXL編碼器，將訓練好的文字凍結。

影象生成部分則是一系列擴散模型，先生成低解析度影象，再逐級超取樣。

谷歌的T5-XXL有46億個引數，而擴大文字編碼器的規模，可以有效改善文字到影象的對應關係，和影象的保真度。

此外，Imagen還使用了另一種稱為noise conditioning augmentation的擴散技術，幫助模型學習已新增的噪聲量，從而提高影象的還原性。

對比來看，Imagen似乎比DALL·E更具有“寫實”的特點：

目前，在Imagen官網上已湧現出各種新奇的影象。

有人給浣熊戴上了宇航員頭盔。

泰迪熊在這裡開始遊蝶泳。

還有老鷹型的巧克力冰淇淋

（嗯，還挺應景）

。

截至目前，Imagen和DALL·E都還在除錯階段，尚未向公眾開放。

One More Thing

這次《虎戴VR》AI作畫大戰中，也不乏有失敗的作品。

例如有網友就給出了用DALL·E mini來生成的示例。

不難看出，在這版中的《虎戴VR》中，並沒有任何VR的出現，而且老虎的面部基本上都是模糊不清。

據網友描述，他在生成的過程中，只是把“北宋”改成了“南宋”：

畫作最難的“形象性”，在這次有所下降。

那麼你覺得《虎戴VR》，哪家AI神器更強一些呢？

參考連結：

https：//twitter。com/hardmaru/status/1532757753797586944？s=21&t=MhwVN5VXH22zFK7DWQJnCg

— 完 —

量子位 QbitAI · 頭條號簽約

奧推網

宋朝名畫“虎戴VR”,在外網火了

相關文章閱讀