奧推網

選單
科技

2022生成模型進展有多快?新論文盤點9類生成模型代表作

蕭簫 發自 凹非寺

量子位 | 公眾號 QbitAI

ChatGPT的出現,徹底將生成AI推向爆發。

但別忘了,AI生成模型可不止ChatGPT一個,光是基於文字輸入的就有7種——

影象、影片、程式碼、3D模型、音訊、文字、科學知識……

尤其2022年,效果好的AI生成模型層出不窮,又以OpenAI、Meta、DeepMind和谷歌等為核心,發了不少達到SOTA的模型。

這不,立刻有學者寫了篇論文,對2022年新出現的主流生成模型進行了年終盤點。

一起來看看這兩年間,各領域的AI生成模型進展究竟怎麼樣了。

9大生成模型,最新代表作是?

這篇論文將AI生成模型分成了9大類。

下圖是2022年前後,在生成效果上達到最優的模型總覽:

除了谷歌LaMDA和Muse以外,所有模型均為2022年釋出。

其中,谷歌LaMDA雖然是2021年釋出的,但在2022年又爆火了一波;Muse則是2023年剛釋出的,但論文聲稱自己在影象生成效能上達到SOTA,因此也統計了進去。

文字-影象生成

這方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。

DALL·E2

是來自OpenAI的生成模型,在零樣本學習上做出大突破。與DALL·E一樣,兩點依舊是CLIP模型,除了訓練資料龐大,CLIP基於Transformer對影象塊建模,並採用對比學習訓練,最終幫助DALL·E2取得了不錯的生成效果。

下圖是DALL·E2根據“一隻戴著貝雷帽、穿黑色高領毛衣的柴犬”生成的影象:

Imagen

來自谷歌,基於Transformer模型搭建,其中語言模型在純文字資料集上進行了預訓練。Imagen增加了語言模型引數量,發現效果比提升擴散模型引數量更好。

下圖是Imagen根據“一隻可愛的柯基住在壽司做的房子裡”生成的影象:

Stable Diffusion

由慕尼黑大學的CompVis小組開發,基於潛在擴散模型打造,這個擴散模型可以透過在潛表示空間中迭代去噪以生成影象,並將結果解碼成完整影象。

Muse

由谷歌開發,基於Transformer模型取得了比擴散模型更好的結果,只有900M引數,但在推理時間上比Stable Diffusion1。4版本快3倍,比Imagen-3B和Parti-3B快10倍。

下圖是Muse與DALL·E2和Imagen的生成效果對比:

文字-3D模型生成

主要代表作有Dreamfusion、Magic3D。

(這裡沒有把OpenAI的Point·E統計進去,可能是生成效果上沒有達到SOTA)

DreamFusion

由谷歌和UC伯克利開發,基於預訓練文字-2D影象擴散模型實現文字生成3D模型。採用類似NeRF的三維場景引數化定義對映,無需任何3D資料或修改擴散模型,就能實現文字生成3D影象的效果。

下圖是DreamFusion生成“穿夾克的松鼠”3D效果:

Magic3D

由英偉達開發,旨在縮短DreamFusion影象生成時間、同時提升生成質量。具體來說,Magic3D可以在40分鐘內建立高質量3D網格模型,比DreamFusion快2倍,同時實現了更高解析度,並在人類評估中以61。7%的比率超過DreamFusion。

影象-文字模型生成

主要代表作有Flamingo、VisualGPT。

Flamingo

是DeepMind推出的小樣本學習模型,基於可以分析視覺場景的視覺模型和執行基本推理的大語言模型打造,其中大語言模型基於文字資料集訓練。輸入帶有影象或影片的問題後,模型會自動輸出一段文字作為回答。

VisualGPT

是OpenAI製作的影象-文字模型,基於預訓練GPT-2提出了一種新的注意力機制,來銜接不同模態之間的語義差異,無需大量影象-文字資料訓練,就能提升文字生成效率。

文字-影片模型生成

主要代表作有Phenaki、Soundify。

Phenaki

由谷歌打造,基於新的編解碼器架構C-ViViT將影片壓縮為離散嵌入,能夠在時空兩個維度上壓縮影片,在時間上保持自迴歸的同時,還能自迴歸生成任意長度的影片。

Soundify

是Runway開發的一個系統,目的是將聲音效果與影片進行匹配,即製作音效。具體包括分類、同步和混合三個模組,首先模型透過對聲音進行分類,將效果與影片匹配,隨後將效果與每一幀進行比較,插入對應的音效。

文字-音訊模型生成

主要代表作有AudioLM、Jukebox、Whisper。

AudioLM

由谷歌開發,將輸入音訊對映到一系列離散標記中,並將音訊生成轉換成語言建模任務,學會基於提示詞產生自然連貫的音色。在人類評估中,認為它是人類語音的佔51。2%、與合成語音比率接近,說明合成效果接近真人。

Jukebox

由OpenAI開發的音樂模型,可生成帶有唱詞的音樂。透過分層VQ-VAE體系將音訊壓縮到離散空間中,損失函式被設計為保留最大量資訊,用於解決AI難以學習音訊中的高階特徵的問題。不過目前模型仍然侷限於英語。

Whisper

由OpenAI開發,實現了多語言語音識別、翻譯和語言識別,目前模型已經開源並可以用pip安裝。模型基於68萬小時標記音訊資料訓練,包括錄音、揚聲器、語音音訊等,確保由人而非AI生成。

文字-文字模型生成

主要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。

ChatGPT

由OpenAI生成,是一個對話生成AI,懂得回答問題、拒絕不正當的問題請求並質疑不正確的問題前提,基於Transformer打造。它用人類打造的對話資料集、以及InstructGPT資料集的對話格式進行訓練,此外也可以生成程式碼和進行簡單數學運算。

LaMDA

基於Transformer打造,利用了其在文字中呈現的長程依賴關係能力。其具有1370億引數,在1。56T的公共對話資料集和網頁文字上進行訓練,只有0。001%的訓練資料被用於微調,這也是它效果好的原因之一。

PEER

由Meta AI打造,基於維基百科編輯歷史進行訓練,直到模型掌握完整的寫作流程。具體來說,模型允許將寫作任務分解成更多子任務,並允許人類隨時干預,引導模型寫出人類想要的作品。

Speech from Brain

由Meta AI打造,用於幫助無法透過語音、打字或手勢進行交流的人,透過對比學習訓練wave2vec 2。0自監督模型,基於非侵入式腦機介面發出的腦電波進行解讀,並解碼大腦生成的內容,從而合成對應語音。

文字-程式碼模型生成

主要代表作有Codex、AlphaCode。

Codex

是OpenAI打造的程式設計模型,基於GPT-3微調,可以基於文字需求生成程式碼。首先模型會將問題分解成更簡單的程式設計問題,隨後從現有程式碼

(包含庫、API等)

中找到對應的解決方案,基於GitHub資料進行訓練。

AlphaCode

由DeepMind打造,基於Transformer模型打造,透過採用GitHub中715。1GB的程式碼進行預訓練,並從Codeforces中引入一個數據集進行微調,隨後基於Codecontests資料集進行模型驗證,並進一步改善了模型輸出效能。

文字-科學知識模型生成

主要代表作有Galactica、Minerva。

Galatica

是Meta AI推出的1200億引數論文寫作輔助模型,又被稱之為“寫論文的Copilot模型”,目的是幫助人們快速總結並從新增論文中得到新結論,在包括生成文字、數學公式、程式碼、化學式和蛋白質序列等任務上取得了不錯的效果,然而一度因為內容生成不可靠被迫下架。

Minerva

由谷歌開發,目的是透過逐步推理解決數學定量問題,可以主動生成相關公式、常數和涉及數值計算的解決方案,也能生成LaTeX、MathJax等公式,而不需要藉助計算器來得到最終數學答案。

其他生成模型

主要包括Alphatensor、GATO、PhysDiff等“其他生成模型”。

AlphaTensor

由DeepMind開發,懂得自己改進矩陣乘法並提升計算速度,不僅改進了目前最優的4×4矩陣解法,也提升了70多種不同大小矩陣的計算速度,基於“棋類AI”AlphaZero打造,其中棋盤代表要解決的乘法問題,下棋步驟代表解決問題的步驟。

GATO

由DeepMind開發,基於強化學習教會大模型完成600多個不同的任務,包含離散控制如Atari小遊戲、推箱子游戲,以及連續控制如機器人、機械臂,還有NLP對話和視覺生成等,進一步加速了通用人工智慧的進度。

PhysDiff

是英偉達推出的人體運動生成擴散模型,進一步解決了AI人體生成中漂浮、腳滑或穿模等問題,教會AI模仿使用物理模擬器生成的執行模型,並在大規模人體運動資料集上達到了最先進的效果。

作者介紹

兩位作者均來自西班牙卡米亞斯大主教大學

(Universidad Pontificia Comillas)

一作Roberto Gozalo-Brizuela,目前是卡米亞斯大主教大學研究助理

(Investigador asociado)

,從事AI相關的專案研究工作。

Eduardo C。 Garrido-Merchán,卡米亞斯大主教大學助理教授,研究方向是貝葉斯最佳化、機器學習、強化學習、生成式AI等。

你感覺哪個領域的生成式AI進展最大?

論文地址:

https://arxiv。org/abs/2301。04655

參考連結:

https://twitter。com/1littlecoder/status/1615352215090384899

— 完 —

量子位 QbitAI · 頭條號簽約