羿閣 發自 凹非寺
量子位 | 公眾號 QbitAI
給Imagen加上“指哪打哪”的能力,會變得有多強?
只需上傳3-5張
指定物體
的照片,再用文字描述想要生成的背景、動作或表情,就能讓指定物體“閃現”到你想要的場景中,動作表情也都栩栩如生。
不止是動物,其他物體像墨鏡、書包、花瓶,也都能做出幾乎以假亂真的成品:
屬於是發朋友圈也不會被別人看出破綻的那種。(手動狗頭)
這個神奇的文字-影象生成模型名叫DreamBooth,是谷歌的最新研究成果,基於Imagen的基礎上進行了調整,一經發布就在推特上引發熱議。
有網友調侃:這簡直是最先進的梗圖生成器。
目前相關研究論文已上傳至arXiv。
幾張照片就能“環遊世界”
在介紹原理前,讓我們先來看看DreamBooth的各種能力,包括換景、指定動作表情服飾、更迭風格等。
如果你是個“鏟屎官”,有了這個模型的“
換景能力
”,就能足不出戶送自家狗子走出家門,凡爾賽宮裡、富士山腳下……通通不在話下。
△光照也比較自然
不僅如此,寵物的
動作和表情
也都能隨意指定,屬實是把“一句話P圖”的細節拿捏到位了。
除了上面的“基操”以外,DreamBooth甚至還能更換各種照片風格,也就是所謂的“加濾鏡”。
例如,各種“世界名畫”畫風、各種視角的狗子,簡直不要太藝術:
至於給它們
加上裝飾
?各種cosplay的小道具,也是小菜一碟。
除此之外,無論是更換顏色:
還是更魔幻一點,更換物種,這隻AI也都能做到。
那麼,如此有趣的效果背後的原理是什麼呢?
給輸入加個“特殊識別符號”
研究人員做了個對比,相較於其他大規模文字-影象模型如DALL-E2、Imagen等,只有採用DreamBooth的方法,才能做到對輸入影象的忠實還原。
如下圖所示,輸入3張右邊錶盤上畫著黃色“3”的小鬧錶,其中DreamBooth生成的影象完美保留了鐘錶的所有細節,但DALL-E2和Imagen幾次生成的鐘都與原來的鐘“有那麼點差異”。
△李逵和“李鬼”
而這也正是DreamBooth最大的特點——
個性化表達
。
使用者可以給定3-5張自己隨意拍攝的某一物體的圖片,就能得到不同背景下的該物體的新穎再現,同時又保留了其關鍵特徵。
當然,作者也表示,這種方法並不侷限於某個模型,如果DALL·E2經過一些調整,同樣能實現這樣的功能。
具體到方法上,DreamBooth採用了給物體加上“
特殊識別符號
”的方法。
也就是說,原本影象生成模型收到的指令只是一類物體,例如[cat]、[dog]等,但現在DreamBooth會在這類物體前加上一個特殊識別符號,變成[V][物體類別]。
以下圖為例,將使用者上傳的三張狗子照片和相應的類名(如“狗”)作為輸入資訊,得到一個經過微調的文字-影象擴散模型。
該擴散模型用“a [V] dog”來特指使用者上傳圖片中的狗子,再把其帶入文字描述中,生成特定的影象,其中[V]就是那個特殊識別符號。
至於為什麼不直接用[V]來指代整個[特定物體]?
作者表示,受限於輸入照片的數量,模型無法很好地學習到照片中物體的整體特徵,反而可能出現過擬合。
因此這裡採用了微調的思路,整體上仍然基於AI已經學到的[物體類別]特徵,再用[V]學到的特殊特徵來修飾它。
以生成一隻白色的狗為例,這裡模型會透過[V]來學習狗的顏色(白色)、體型等個性化細節,加上模型在[狗]這個大的類別中學到的狗的共性,就能生成更多合理又不失個性的白狗的照片。
為了訓練這個微調的文字-影象擴散模型,研究人員首先根據給定的文字描述生成低解析度影象,這時生成的影象中狗子的形象是隨機的。
然後再應用超解析度的擴散模型進行替換,把隨機影象換成使用者上傳的特定狗子。
研究團隊
DreamBooth的研究團隊來自谷歌,第一作者是Nataniel Ruiz。
Nataniel Ruiz是波士頓大學影象和影片計算組的四年級博士生,目前在谷歌實習。主要研究方向是生成模型、影象翻譯、對抗性攻擊、面部分析和模擬。
論文連結附在文末,感興趣的小夥伴們趕緊來看看吧~
論文地址:
https://arxiv。org/abs/2208。12242
參考連結:
[1]https://dreambooth。github。io/
[2]https://twitter。com/natanielruizg/status/1563166568195821569
[3]https://natanielruiz。github。io/
— 完 —
量子位 QbitAI · 頭條號簽約