Alex 羿閣 發自 凹非寺
量子位 | 公眾號 QbitAI
新年伊始,谷歌AI又開始發力
文字-影象生成模型
了。
這次,他們的新模型
Muse
(繆斯)
在CC3M資料集上達成了
新SOTA
(目前最佳水平)
。
而且其效率遠超火爆全球的
DALL·E 2和Imagen
(這倆都屬於擴散模型)
,以及
Parti
(屬於自迴歸模型)
。
——單張512x512解析度影象的生成時間被壓縮到僅1。3秒。
在影象編輯方面,只需一句文字指令,就可以對原始影象進行編輯。
(貌似不用再為學ps頭禿了~)
如果想要效果更精準,還能選定遮罩位置,編輯特定區域。比如,把背景的建築換成熱氣球。
Muse一經官宣,很快吸引了大波關注,目前原貼已收穫4000+點贊。
看到谷歌的又一力作,有人甚至已經開始預言:
現在AI開發者的競爭非常激烈,看來2023將是非常精彩的一年。
比DALL·E 2和Imagen更高效
說回谷歌剛剛公開的
Muse。
首先,就生成圖片的質量來說,Muse的作品大都畫質清晰、效果自然。
來看看更多例子感受一下~
比如戴著毛線帽的樹懶寶寶正在操作電腦;再比如酒杯中的一隻羊:
平時八竿子打不著的各種主體,在一張圖裡和諧共存,沒啥違和感。
要是你覺得這些還只能算AIGC的基操,那不妨再看看Muse的編輯功能。
比如一鍵換裝
(還能換性別)
:
這既不需要加什麼遮罩,還能一句話搞定。
而如果用上遮罩的話,就能實現更6的操作,包括一鍵切換背景,從原地切換到紐約、巴黎、再到舊金山。
還能從海邊到倫敦、到花海,甚至飛到太空中的土星環上,玩一把刺激的滑板海豚跳。
(好傢伙,不僅能輕鬆雲旅遊,還能一鍵上天……)
效果著實挺出色。那Muse背後都有哪些技術支援?為什麼效率比DALL·E 2和Imagen更高?
一個重要的原因是,DALL·E 2和Imagen在訓練過程中,需要將所有學到的知識都儲存在模型引數中。
於是,它們不得不需要越來越大的模型、越來越多的訓練資料來獲取更多知識——將Better和Bigger綁在了一起。
代價就是引數量巨大,效率也受到了影響。
而據谷歌AI團隊介紹,他們採用的主要方法名曰:
掩碼影象建模
(Masked image modeling)
。
這是一種新興的自監督預訓練方法,其基本思想簡單來說就是:
輸入影象的一部分被隨機遮蔽掉,然後透過預訓練文字任務進行重建。
Muse模型在離散標記的空間掩碼上訓練,並結合從預訓練語言大模型中提取的文字,預測隨機遮蔽的影象標記。
從上到下依次為:預訓練的文字編碼器、基礎模型、超解析度模型
谷歌團隊發現,使用預先訓練好的大語言模型,可以讓AI對語言的理解更加細緻透徹。
就輸出而言,由於AI對物體的空間關係、姿態等要素把握得很不錯,所以生成的影象可以做到高保真。
與DALL·E 2、Imagen等畫素空間的擴散模型相比,Muse用的是
離散的token,並且取樣迭代較少
。
另外,和Parti等自迴歸模型相比,Muse使用了
並行解碼
,效率也更高。
FID上獲SOTA得分
前文提到,
Muse
不僅在效率上取得了提升,在生成影象質量上也非常優秀。
研究者把它與DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti進行PK,測試了它們的FID和CLIP分數。
(FID分數用於評估生成影象的質量,分數越低質量越高;CLIP分數則代表文字與影象的契合程度,分數越高越好。)
結果顯示,Muse-3B模型在COCO驗證集中的zero-shot FID-30K得分為7。88,僅次於引數更大的Imagen-3。4B和Parti-20B模型。
更優秀的是,Muse-900M模型在CC3M資料集上實現了新的SOTA,FID得分為6。06,這也意味著它與文字的匹配度是最高的。
同時,該模型的CLIP分數為0。26,也達到了同期最高水平。
除此之外,為了進一步證實Muse的出圖效率,研究者還對比了Muse與其他模型的單張影象生成時間:
在256x256、512x512的解析度上Muse均達到了最快速度:0。5s和1。3s。
研究團隊
Muse的研究團隊來自谷歌,兩位共同一作分別是Huiwen Chang和Han Zhang。
Huiwen Chang,現為谷歌高階研究員。
她本科就讀於清華大學,博士畢業於普林斯頓大學,有過在Adobe、Facebook等的實習經歷。
Han Zhang,本科畢業於中國農業大學,碩士就讀於北京郵電大學,後在羅格斯大學取得了計算機科學博士學位。
其研究方向是計算機視覺,深度學習和醫學影象分析等。
不過值得一提的是,目前Muse還沒有正式釋出。
有網友調侃,雖然它應該很香,但以谷歌的“尿性”,Muse離正式釋出可能還有很長時間——畢竟他們還有18年的AI都沒發呢。
話說回來,你覺得Muse的效果怎麼樣?
對於其正式釋出之事,有木有一點期待?
傳送門:https://muse-model。github。io/
參考連結:https://twitter。com/AlphaSignalAI/status/1610404589966180360
— 完 —
量子位 QbitAI · 頭條號簽約