萬字整理:AI繪畫突飛猛進的一年半

本文來自微信公眾號：

Web3天空之城（ID：gh_a702b8d21cdf）

，作者：城主，原文標題：《AI繪畫何以突飛猛進？從歷史到技術突破，一文讀懂火爆的AI繪畫發展史》，題圖由作者使用AI繪畫生成

前言

自從前段時間偶然間被當下AI繪畫的水平震住之後

（

超越一切的AI作畫神器，和它創作的234個盔甲美女未來戰士

）

，作者深感

當今AI繪畫的飛速進展或許已遠超所有人的預期。

而這裡的前因後果，包括AI繪畫的歷史，以及最近的突破性進展，值得好好和大夥兒梳理和分享一下。

2022，進擊的AI繪畫

今年以來，

輸入文字描述自動生成圖片的AI繪畫神器突然雨後春筍的冒了出來。

首先是Disco Diffusion。Disco Diffusion 是在今年 2 月初開始爆紅的一個 AI 影象生成程式，它可以根據描述場景的關鍵詞渲染出對應的影象。

到了今年4月，著名人工智慧團隊OpenAI 也釋出了新模型 DALL·E 2代，該名稱來源於著名畫家達利

（Dalí）

和機器人總動員

（Wall-E）

，同樣支援從文字描述生成效果良好的影象。

而很多讀者對AI繪畫開始產生特別的關注，或許是從以下這幅AI作品鬧出的新聞開始的：

這是一幅使用AI繪畫服務 MidJourney 生成的數字油畫，生成它的使用者以這幅畫參加美國科羅拉多州博覽會的藝術比賽，奪得了第一名。

這件事被曝光之後引發了網路上巨大的爭論至今。

目前 AI繪畫的技術仍在不斷變化發展中，

其迭代之快，完全可以用“日新月異”來形容。

即使把今年年初的AI繪畫和現在相比，。效果也有天壤之別。

在年初的時候，用Disco Diffusion可以生成一些很有氛圍感的草圖，但基本還無法生成人臉；僅僅2個月後，DALL-E 2已經可以生成準確的五官；現在，最強大的Stable Diffusion在畫作的精緻程度和作畫速度上更是有了一個量級的變化。

AI繪畫這項技術並不是近年才有的，

但是今年以來，AI產出作品的質量以肉眼可見的速度日益提升，而效率也從年初的一個小時縮短到現在的十幾秒。

在這個變化後面，究竟發生了什麼事情？就讓我們先全面回顧一下AI繪畫的歷史，再來理解一下這一年多來，AI繪畫技術足以載入史冊的突破發展。

AI繪畫的歷史

AI繪畫的出現時間可能比很多人想象的要早。

計算機是上世紀60年代出現的，

而就在70年代，一位藝術家哈羅德·科恩Harold Cohen（畫家，加利福尼亞大學聖地亞哥分校的教授）就開始打造電腦程式“AARON”進行繪畫創作。

只是和當下AI繪畫輸出數字作品有所不同，AARON是真的去控制一個機械臂來作畫的。

Harold對AARON的改進一直持續了幾十年，直到他離世。

在80年代的時候，ARRON“掌握”了三維物體的繪製；90年代時，AARON能夠使用多種顏色進行繪畫，據稱直到今天，ARRON仍然在創作。

不過，AARON的程式碼沒有開源，所以其作畫的細節無從知曉，但可以猜測，

ARRON只是以一種複雜的程式設計方式描述了作者Harold本人對繪畫的理解

——這也是為什麼ARRON經過幾十年的學習迭代，最後仍然只能產生色彩豔麗的抽象派風格畫作，這正是 Harold Cohen 本人的抽象色彩繪畫風格。 Harold用了幾十年時間，把自己對藝術的理解和表現方式透過程式指導機械臂呈現在了畫布上。

左：ARRON和哈羅德·科恩；右：ARRON 在 1992 年的創作作品

儘管難說AARON如何智慧，但作為第一個自動作畫且真的在畫布上作畫的程式，給予它一個AI作畫鼻祖的稱號，倒也符合其身份。

2006年，出現了一個類似ARRON的電腦繪畫產品 The Painting Fool。

它可以觀察照片，提取照片裡的塊顏色資訊，使用現實中的繪畫材料如油漆、粉彩或者鉛筆等進行創作。

以上這兩個例子算是比較“古典”方式的電腦自動繪畫，有點像一個學步的嬰兒，有一點樣子，但從智慧化的角度來看是相當初級的。

而現在，我們所說的“AI繪畫”概念，

更多指的是基於深度學習模型來進行自動作圖的計算機程式。

這個繪畫方式的發展其實是比較晚的。

在2012年Google兩位大名鼎鼎的AI大神吳恩達和Jef Dean進行了一場空前的試驗，聯手使用1。6萬個CPU訓練了一個當時世界上最大的深度學習網路，用來指導計算機畫出貓臉圖片。當時他們使用了來自youtube的1000萬個貓臉圖片，

1.6萬個CPU整整訓練了3天，最終得到的模型，令人振奮地可以生成一個非常模糊的貓臉。

在今天看起來，這個模型的訓練效率和輸出結果都不值一提。但對於當時的AI研究領域，這是一次具有突破意義的嘗試，正式開啟了深度學習模型支援的AI繪畫這個“全新”研究方向。

在這裡我們稍微講一點技術細節：基於深度學習模型的AI繪畫究竟有多麻煩呢，為什麼2012年已經很現代水平的大規模計算機叢集耗時多天的訓練只能得出一點可憐的結果？

讀者們或許有個基本概念，深度學習模型的訓練簡單說來就是利用外部大量標註好的訓練資料輸入，根據輸入和所對應的預期輸出，反覆調整模型內部引數加以匹配的過程。

那麼讓AI學會繪畫的過程，就是構建已有畫作的訓練資料，輸入AI模型進行引數迭代調整的過程。

一幅畫帶有多少資訊呢？

首先就是長x寬個RGB畫素點。

讓計算機學繪畫，最簡單的出發點是得到一個輸出有規律畫素組合的AI模型。

但RGB畫素組合一起的並非都是畫作，也可能只是噪點。一副紋理豐富、筆觸自然的畫作有很多筆畫完成，涉及繪畫中每一筆的位置、形狀、顏色等多個方面的引數，

這裡涉及到的引數組合是非常龐大的。

而深度模型訓練的計算複雜度隨著引數輸入組合的增長而急劇增長……大家可以理解這個事情為啥不簡單了。

在吳恩達和Jeff Dean開創性的貓臉生成模型之後，AI科學家們開始前赴後繼投入到這個新的挑戰性領域裡。在2014年，AI學術界提出了一個非常重要的深度學習模型，

這就是大名鼎鼎的對抗生成網路GAN

（Generative Adverserial Network，GAN）

。

正如同其名字“對抗生成”，這個深度學習模型的核心理念是

讓兩個內部程式“生成器（generator）”和“判別器（discriminator）”互相PK平衡之後得到結果。

GAN模型一問世就風靡AI學術界，在多個領域得到了廣泛的應用。它也隨即成為了很多AI繪畫模型的基礎框架，其中生成器用來生成圖片，而判別器用來判斷圖片質量。GAN的出現大大推動了AI繪畫的發展。

但是，用基礎的GAN模型進行AI繪畫也有比較明顯的缺陷，

一方面是對輸出結果的控制力很弱，

容易產生隨機影象，而AI藝術家的輸出應該是穩定的；

另外一個問題是生成影象的解析度比較低。

解析度的問題還好說， GAN在“創作”這個點上還存在一個死結，這個結恰恰是其自身的核心特點：根據GAN基本架構，判別器要判斷產生的影象是否和已經提供給判別器的其他影象是同一個類別的，

這就決定了在最好的情況下，輸出的影象也就是對現有作品的模仿，而不是創新

……

在對抗生成網路GAN之外，研究人員也開始利用其他種類的深度學習模型來嘗試教AI繪畫。

一個比較著名的例子是2015年Google釋出的一個影象工具深夢

（Deep Dream）

。深夢釋出了一系列畫作，一時吸引了很多眼球。谷歌甚至為這個深夢的作品策劃了一場畫展。

但如果較真一下，深夢與其說是AI繪畫，

更像是一個高階AI版濾鏡。

和作品不尷不尬的Deep Dream相比，Google更靠譜的是2017年成千張手繪簡筆畫圖片訓練的一個模型，AI透過訓練能夠繪製一些簡筆畫。

（Google，《A Neural Representation of Sketch Drawings》）

這個模型之所以受到廣泛關注有一個原因，

Google把相關原始碼開源了，因此第三方開發者可以基於該模型開發有趣的AI簡筆畫應用。

一個線上應用叫做 “Draw Together with a Neural Network”，隨意畫幾筆，AI就可以自動幫你補充完整個圖形。

值得注意的是，在AI繪畫模型的研究過程中，

各網際網路大廠成了主力，

除了上述Google所做的研究，比較有名的是2017年7月，Facebook聯合羅格斯大學和查爾斯頓學院藝術史系三方合作得到的新模型，號稱創造性對抗網路

（CAN，Creative Adversarial Networks）

（Facebook，《CAN： Creative Adversarial Networks， Generating “Art” by Learning About Styles and Deviating from Style Norms》）

從下圖的作品集可以看出，這個創造性對抗網路CAN在嘗試輸出一些像是藝術家作品的圖畫，

它們是獨一無二的，而不是現存藝術作品的仿品。

CAN模型生成作品裡所體現的創造性讓當時的開發研究人員都感到震驚，

因為這些作品看起來和藝術圈子流行的抽象畫非常類似。

於是研究人員組織了一場圖靈測試，請觀眾們去猜這些作品是人類藝術家的作品，還是人工智慧的創作。

結果，53%的觀眾認為CAN模型的AI藝術作品出自人類之手，這在歷史上類似的圖靈測試裡首次突破半數。

但CAN這個AI作畫，

僅限於一些抽象表達，而且就藝術性評分而言，還遠遠達不到人類大師的水平。

更不用說創作出一些寫實或者具象的繪畫作品了，不存在的。

其實一直到2021年初，OpenAI釋出了廣受關注的DALL-E系統，其AI繪畫的水平也就一般，下面是DALL-E畫一隻狐狸的結果，勉強可以辨別。

但值得注意的是，到了DALL-E這裡，

AI開始擁有了一個重要的能力，那就是可以按照文字輸入提示來進行創作了！

接下來，我們繼續去探求本文一開始提出的問題。不知各位讀者是否有同感，

自今年以來，AI繪畫的水平突然大漲，和之前的作品質量相比有本質的飛躍，

恍然有種一日不見如隔三秋的感覺。

事出必有妖。究竟發生了什麼情況？我們慢慢道來。

AI繪畫何以突飛猛進

在很多科幻電影或劇集裡，往往會有這麼一幕：主角和特別有科幻感的電腦AI說了一句話，然後AI生成了一個3D影像，用VR/AR/全息投影的方式呈現在主角面前。

拋開那些酷炫的視覺效果包裝，這裡的核心能力是，人類用語言輸入，然後電腦AI理解人類的表達，生成一個符合要求的圖形影象，展示給人類。

仔細一想，這個能力最基礎的形式，就是一個AI繪畫的概念嘛。

（當然，從平面繪畫到3D生成還稍有一點距離，但相比於AI憑空創作一幅具象有意義的繪畫作品的難度，從2D圖自動生成對應的3D模型就不是一個量級上的問題。）

所以，無論是用說話控制，還是更玄乎的腦電波控制，科幻影視中的酷炫場景實際上描述了一種AI能力，那就是把“語言描述”透過AI理解自動變為了影象。

目前語音自動識別文字的技術已經成熟至極，

所以這本質上就是一個從文字到影象的AI繪畫過程。

其實挺牛X的，僅靠文字描述，沒有任何參考圖片，AI就能理解並自動把對應內容給畫出來了，而且畫得越來越好！這在昨天還感覺有點遠的事情，現在已真真切切出現在所有人的面前。

這一切到底怎麼發生的呢？

首先要提到一個新模型的誕生。還是前面提到的OpenAI團隊，

在2021年1月開源了新的深度學習模型 CLIP

（

Contrastive Language-Image Pre-Training）

。一個當今最先進的影象分類人工智慧。。

CLIP訓練AI同時做了兩個事情，

一個是自然語言理解，一個是計算機視覺分析。

它被設計成一個有特定用途的能力強大的工具，那就是做通用的影象分類，CLIP可以決定影象和文字提示的對應程度，比如把貓的影象和“貓”這個詞完全匹配起來、

CLIP模型的訓練過程，簡單的說，就是使用已經標註好的“文字-影象”訓練資料，一方面對文字進行模型訓練，一方面對影象進行另一個模型的訓練，

不斷調整兩個模型內部引數，使得模型分別輸出的文字特徵值和影象特徵值能讓對應的“文字-影象”經過簡單驗證確認匹配。

關鍵的地方來了，其實呢，之前也有人嘗試過訓練“文字-影象”匹配的模型，但CLIP最大的不同是，它搜刮了

40億個

“文字-影象”訓練資料！

透過這天量的資料，再砸入讓人咂舌的昂貴訓練時間，CLIP模型終於修成正果。

聰明的讀者會問，這麼多的“文字-影象”標記是誰做的呢？40億張啊，如果都需要人工來標記影象相關文字，那時間成本和人力成本都是天價。而這正是CLIP最聰明的地方，

它用的是廣泛散佈在網際網路上的圖片！

網際網路上的圖片一般都帶有各種文字描述，比如標題、註釋，甚至使用者打的標籤，等等，這就天然的成為了可用的訓練樣本。用這個特別機靈的方式，CLIP的訓練過程完全避免了最昂貴費時的人工標註，或者說，

全世界的網際網路使用者已經提前做了標註工作了。

CLIP功能強大，但無論如何，它第一眼看上去，和藝術創作似乎沒啥關係。

但就在CLIP開源釋出幾天後，一些機器學習工程師玩家就意識到，這個模型可以用來做更多的事情。比如Ryan Murdock，想出瞭如何把其他AI連線到CLIP上，來打造一個AI影象生成器。Ryan Murdock在接受採訪時說：“在我把玩它幾天後，我意識到我可以生成影象。”

最終他選擇了BigGAN，一個GAN模型的變種，並將程式碼釋出為Colab筆記The Big Sleep。

（注：Colab Notebook是Google提供的非常方便的Python Notebook互動式程式設計筆記本線上服務，背後是Google雲計算的支援。略懂技術的使用者可以在一個類似筆記本的Web介面上編輯執行Python指令碼並得到輸出。重要的是，這個程式設計筆記是可以分享的）

Big Sleep創作的圖畫其實略詭異和抽象，但這是一個很好的開始。

隨後，西班牙玩家@RiversHaveWings在此基礎上釋出了CLIP+VQGAN的版本和教程，

這個版本透過Twitter被廣為轉發傳播，引起了AI研究界和愛好者們的高度關注。

而這個ID背後，正是現在所被熟知的計算機資料科學家 Katherine Crowson。

在之前，類似VQ-GAN這樣的生成工具在對大量影象進行訓練後，可以合成類似的新影象，然而，如讀者還有印象，前面說過，GANs型別的模型本身並不能透過文字提示生成新影象，也不擅長創作出全新的影象內容。

而把CLIP嫁接到GAN上去生成影象，這其中的思路倒也簡單明瞭：

既然利用CLIP可以計算出任意一串文字和哪些影象特徵值相匹配，

那隻要把這個匹配驗證過程連結到負責生成影象的AI模型（比如這裡是VQ-GAN），負責生成影象的模型反過來推導一個產生合適影象特徵值，能透過匹配驗證的影象，不就得到一幅符合文字描述的作品了嗎？

有人認為CLIP+VQGAN是自2015年Deep Dream以來人工智慧藝術領域最大的創新。而美妙的是，CLIP+VQGAN對任何想使用它們的人來說都是現成的。按照Katherine Crowson的線上教程和Colab Notebook，一個略懂技術的使用者可以在幾分鐘內執行該系統。

有意思的是，上一章也提到，在同一個時間

（2021年初）

，開源釋出CLIP的OpenAI團隊也釋出了自己的影象生成引擎DALL-E。

DALL-E內部也正是用了CLIP，

但DALL-E並不開源！

所以論社群影響力和貢獻，DALL-E完全不能和CLIP+VQGAN的開源實現釋出相比，當然，開源CLIP已經是OpenAI對社群做出的巨大貢獻了。

說到開源貢獻，這裡還不得不提到LAION。

LAION是一個跨全球的非營利機器學習研究機構，

今年3月開放了當前最大規模的開源跨模態資料庫LAION-5B，包含接近60億（5.85 Billion）個圖片-文字對，

可以被用來訓練所有從文字到影象的的生成模型，也可以用於訓練 CLIP這種用於給文字和影象的匹配程度打分的模型，而這兩者都是現在 AI 影象生成模型的核心。

除了提供以上的海量訓練素材庫，LAION 還訓練 AI 根據藝術感和視覺美感，給LAION-5B 裡圖片打分，並把得高分的圖片歸進了一個叫 LAION-Aesthetics 的子集。

事實上，最新的AI繪畫模型包括隨後提到的AI繪畫模型王者 Stable Diffusion

都是利用LAION-Aesthetics這個高質量資料集訓練出來的。

CLIP+VQGAN 引領了全新一代AI影象生成技術的風潮，

現在所有的開源 TTI

（Text to Image，文字文字生成影象）

模型的簡介裡都會對 Katherine Crowson 致謝，她是當之無愧的全新一代AI繪畫模型的奠基者。

技術玩家們圍繞著CLIP+VQGAN開始形成社群，程式碼不斷有人做最佳化改進，還有Twitter賬號專門收集和釋出AI畫作。而最早的踐行者 Ryan Murdoch 還因此被招募進了Adobe擔任機器學習演算法工程師。

不過這一波AI作畫浪潮的玩家主要還是AI技術愛好者。

儘管和本地部署AI開發環境相比，在Golab Notebooks上跑CLIP+VQGAN的門檻相對而言已經比較低，但畢竟在Colab申請GPU執行程式碼並呼叫AI輸出圖片，時不時還要處理一下程式碼報錯，這不是大眾化人群特別是沒有技術背景的藝術創作者們可以做的。而這也正是現在 MidJourney 這類零門檻的傻瓜式AI付費創作服務大放光彩的原因。

但激動人心的進展到這裡還遠沒結束。細心的讀者注意到，CLIP+VQGAN這個強力組合是去年初發布並在小圈子傳播的，但AI繪畫的大眾化關注，如開篇所說，則是在今年初開始，由Disco Diffusion這個線上服務所引爆。這裡還隔著大半年的時間。是什麼耽擱了呢？

一個原因是CLIP+VQGAN模型所用到的影象生成部分，即GAN類模型的生成結果始終不盡如人意。

AI人員注意到了另外一種影象生成方式。如果複習一下GAN模型的工作原理，其影象輸出是內部生成器和判斷器的PK妥協結果。

但還有另外一種思路，那就是Diffusion模型（擴散化模型）。

Diffusion這個詞也很高大上，但基本原理說出來大家都能理解，

其實就是“去噪點”。

對，就是我們熟悉的手機拍照

（特別是夜景拍照）

的

自動降噪功能

。如果把這個去噪點的計算過程反覆進行，在極端的情況下，

是不是可能把一個完全是噪聲的圖片還原為一個清晰的圖片呢？

靠人當然不行，簡單的去噪程式也不可能，但是基於AI能力去一邊“猜”一邊去噪，倒是可行的。

這就是Diffusion擴散化模型的基本思路。

Diffusion擴散化模型目前在計算機視覺領域的影響力越來越大，

它能夠高效合成視覺資料，圖片生成完全擊敗了GAN模型，

而在其他領域如影片生成和音訊合成也展現出了不俗的潛力。

今年初被大眾首先熟知的AI繪畫產品Disco Diffusion，正是第一個基於CLIP + Diffusion模型的實用化AI繪畫產品。

但Disco Diffusion的缺點還是有些明顯，如身為專業藝術家的 Stijn Windig 反覆嘗試了Disco Diffusion，認為 Disco Diffusion 並沒有取代人工創作的能力，核心原因有2點：

Disco Diffusion 無法刻畫具體細節，

渲染出的影象第一眼很驚豔，但仔細觀察就會發現大部分都是模糊的概括，達不到商業細節水準。

Disco Diffusion的初步渲染時間是以小時計算的，而要在渲染影象的基礎上刻畫細節，則相當於要把整個圖重新畫一遍，

這樣一個流程下來花耗費的時間精力，比直接手繪還要多。

不過 Stijn Windig 還是對AI繪畫的發展持樂觀態度，他覺得儘管直接利用 Disco Diffusion 進行商業化創作還不可行，

但作為一種靈感參考還是非常好的：

“……我發現它更適合作為一個創意生成器使用。給一個文字提示，它返回一些圖片能激發我的想象力，並可以作為草圖用來在上面繪畫。”

其實從技術上來說， Stijn提出的兩大痛點實際上都是因為Diffusion擴散模型的一個內在缺點，這就是反向去噪生成圖片的迭代過程很慢，模型在畫素空間中進行計算，

這會導致對計算時間和記憶體資源的巨大需求，

在生成高解析度影象時變得異常昂貴。

（畫素空間，有點專業化的說法，實際上就是說模型直接在原始畫素資訊層面上做計算）

因此對於大眾應用級的平臺產品，這個模型無法在使用者可以接受的生成時間裡去計算挖掘更多的影象細節，即便那種草稿級別的作圖，也需要耗費Disco Diffusion以小時計算的時間。

但無論如何，Disco Diffusion給出的繪畫質量，相對於之前的所有AI繪畫模型，都是碾壓式的超越，而且已經是大部分普通人無法企及的作畫水平了，Stijn的挑刺只是站在人類專業創作的高點提出的要求。

但是，Stijn同學恐怕萬萬沒想到，他所指出的AI繪畫兩大痛點，還沒過幾個月，就被AI研究人員近乎完美的解決了！

講到這裡，噹噹噹當，

當今世界最強大的AI繪畫模型Stable Diffusion

終於閃亮登場了！

Stable Diffusion今年7月開始測試，它非常好的解決了上述痛點。

實際上Stable Diffusion和之前的Diffusion擴散化模型相比，重點是做了一件事，那就是

把模型的計算空間，從畫素空間經過數學變換，在儘可能保留細節資訊的情況下降維到一個稱之為潛空間（Latent Space）的低維空間裡，然後再進行繁重的模型訓練和影象生成計算。

這個“簡單”的思路轉化，帶來了多大的影響呢？

基於潛空間的Diffusion模型與畫素空間Diffusion模型相比，

大大降低了記憶體和計算要求。

比如Stable Diffusion所使用的潛空間編碼縮減因子為8，說人話就是影象長和寬都縮減8倍，一個512x512的影象在潛空間中直接變為64x64，節省了8x8=64倍的記憶體！

這就是Stable Diffusion之所以又快又好的原因，

它能快速（以秒計算）生成一張飽含細節的512x512影象，只需要一張消費級的8GB 2060顯示卡即可！

讀者可以簡單算一下，如沒有這個空間壓縮轉換，要實現Stable Diffusion這樣的秒級影象生成體驗，則需要一張8Gx64=512G視訊記憶體的超級顯示卡。按照顯示卡硬體的發展規律來看，消費級顯示卡達到這個視訊記憶體恐怕是8~10年後的事情。

而AI研究人員一個演算法上的重要迭代，把10年後我們才可能享受到的AI作畫成果直接帶到了當下所有普通使用者的電腦前！

所以目前大家對AI繪畫的進展感到吃驚是完全正常的，

因為從去年到今年，AI繪畫的技術確實出現了連續的突破性的進展，

從CLIP模型基於無需標註的海量網際網路圖片訓練大成，到CLIP開源引發的AI繪畫模型嫁接熱潮，然後找到了Diffusion擴散化模型作為更好的影象生成模組，最後使用潛空間降維的改進方法解決了Diffusion模型時間和記憶體資源消耗巨大的問題……這一切的一切，讓人目不暇接，可以說AI繪畫在這一年間，變化是以天計算的！

而在這個過程中，最幸福的莫過於所有AI技術愛好者和藝術創作者們。大家親眼目睹著停滯了多年的AI繪畫水平以火箭般的速度衝到了頂峰。毫無疑問，這是AI發展歷史上的一個高光時刻。

而對所有普通使用者來說，最開心的，當然是享受到了利用Stable Diffusion或者MidJourney這樣的當今頂級作畫AI去生成專業級別畫作的巨大樂趣。

有趣的是，Stable Diffusion的誕生還和前面提到的兩位先驅Katherine Crowson 和Ryan Murdoch 有關。他們成為了一個去中心化組織的AI開源研發團隊EleutherAI的核心成員。雖然自稱草根團隊，但EleutherAI在超大規模預言模型和AI影象生成領域目前都已經是開源團隊的佼佼者。

正是EleutherAI作為技術核心團隊支援了Stability。AI這一家創始於英國倫敦的AI方案提供商。這些有理想的人們聚在一起，基於以上這些最新的AI繪畫技術突破，推出了當今最強大的AI繪畫模型Stable Diffusion。重要的是，

Stable Diffusion按照承諾，已經在8月完全開源！

這個重要的開源讓全世界的AI學者和AI技術愛好者感動得痛哭流涕。Stable Diffusion一經開源，就始終霸佔著GitHub熱榜第一。

Stability。AI徹底履行了它官網首頁的Slogan “AI by the people，for the people”，必須給予一個大大的贊。

下圖是作者線上執行的Stable Diffusion，感謝開源！話說這個AI生成的自帶光環的日漫小哥是相當的帥氣：）

頂級AI繪畫模型的PK：Stable Diffusion vs。 MidJourney

作者在之前文章裡已經介紹了MidJourney這個線上AI作畫神器，它最大的優點就是零門檻的互動和非常好的輸出結果。

創作者無需任何技術背景就能利用基於Discord的MidJourney bot進行對話式繪畫創作

（恩，當然，全英文）

。

從輸出風格上看，

MidJourney非常明顯針對人像做了一些最佳化，

用多了後， MidJourney的風格傾向也比較明顯（作者在MidJourney上花了數百刀的計算資源嘗試了各種主題創作後的第一手感受），說得好聽是比較細膩討巧，或者說，比較油膩一點點。

而Stable Diffusion的作品，就明顯的更淡雅一些，更藝術化一些。

以下是作者使用了同一種文字描述在這兩大平臺上創作的AI作品對比，讀者不妨直接感受一下。

（注：以下生成畫作均有完全版權，單獨轉載請註明來源）

Stable Diffusion

（左）

vs。 MidJourney

（右）

：

樹屋

柴油朋克風的城市

魔獸世界主城奧格瑞瑪

盔甲狼騎士

碧藍幻想風格漫畫少女

浪漫寫實主義美女油畫（風格參考丹尼爾·戈爾哈茨，美國畫家）

帶有狹長走道的迷宮般老城市建築

哪種風格更好？其實蘿蔔青菜各有所愛。

因為做過針對性的最佳化，如要出人像圖或者糖水風格美圖用MidJourney更方便。但比較了多張作品後，作者認為Stable Diffusion還是明顯技高一籌，

無論從藝術表達上還是風格變化的多樣性上。

不過，

MidJourney這幾個月的迭代是有目共睹的快

（畢竟是付費服務，很賺錢很有動力啊）

，加上Stable Diffusion的完全開源，預計相關技術優勢會很快被吸收進MidJourney。而另一方面，Stable Diffusion模型的訓練還在持續進行中，我們可以非常期待，未來版本的Stable Diffusion模型也將百尺竿頭更進一步。

對所有的創作者使用者而言，這都是天大的好事。

AI繪畫的突破對人類意味著什麼

2022年的AI領域，基於文字生成影象的AI繪畫模型是風頭無兩的主角。從2月份的Disco Diffusion開始，4月DALL-E 2和MidJourney邀請內測，5月和6月Google釋出兩大模型Imagen 和Parti

（不開放內測只有論文，感覺略水）

，然後7月底，Stable Diffusion橫空出世……

真的讓人眼花繚亂。也勿怪作者在上篇文章裡感慨，怎麼稍不注意AI繪畫的水平就突飛猛進到如此地步，事實上，確實就是在這一年半載裡，AI繪畫發生了革命性的、甚至可以說歷史上會留名的突破性進展。

而接下去的時間裡，AI繪畫，或者更廣泛的，

AI生成內容領域（影象、聲音、影片、3D內容等）還會發生什麼，讓人充滿了遐想和期待。

但不用等待未來，體驗了當下以Stable Diffusion為代表的最先進AI繪畫模型所能觸達的藝術高度，我們已經基本可以確認，

“想象力”和“創造力”這兩個曾經充滿著神秘主義的詞彙，同時也是人類最後的驕傲，其實也是可以被技術解構的。

對人類靈魂神聖至上說法的擁護者而言，當今AI繪畫模型所展現的創造力，是一種對信仰的無情打擊。所謂靈感、創造力、想象力，這些充滿著神性的詞，即將

（或者已經）

被超級算力+大資料+數學模型的強力組合無情打臉了。

事實上，類似Stable Diffusion這種AI生成模型的一個核心思路，或者說很多深度學習AI模型的核心思路，

就是把人類創作的內容，表示為某個高維或者低維數學空間裡的一個向量（

更簡單的理解，一串數字）

。

如果這個“內容->向量”的轉化設計足夠合理，那麼人類所有的創作內容都可以表示為某個數學空間裡的部分向量而已。而存在於這個無限的數學空間裡的其他向量，正是那些理論上人類可能創造，但尚未被創造出來的內容。

透過逆向的“向量->內容”的轉換，這些還沒被創造的內容就被AI挖掘出來了。

這正是目前MidJourney、Stable Diffusion這些最新AI繪畫模型所做的事情。AI可以說是在創作新的內容，也可以說是新繪畫作品的搬運工。AI產生的新繪畫作品在數學意義上一直客觀存在，只是被AI透過很聰明的方式，從數學空間裡還原出來，而已。

“文章本天成，妙手偶得之”。

這句話放在這裡非常合適。這“天”，是那個無限的數學空間；而這“手”，從人類換成了AI。數學真是世界至高法則。

目前最新AI繪畫的“創造力”開始追趕甚至幾已比肩人類，這或許進一步打擊了人類的尊嚴，從圍棋阿法狗開始，人類在“智慧”這個點的尊嚴領地已經越來越小，而AI繪畫的突破性進展則進一步把人類“想象力”和“創造力”的尊嚴都打碎了——或許還沒完全破碎，但已經充滿裂痕搖搖欲墜。

作者一直對人類的科技發展保持某種中性看法：儘管我們寄望於科技讓人類的生活變得更美好，但事實上正如核彈的發明，有些科學技術的出現是中性的，也可能是致命的。完全取代人類的超級AI從實踐來看似乎是一件越來越可能的事情。人類需要思考的是，在不太遠的將來，

我們在所有領域面對AI都落荒而逃的時候，如何保持對世界的主導權。

有個朋友說的很對，如果AI最終學會了寫程式碼——似乎沒有什麼必然的壁壘在阻止這件事的發生——那麼電影《終結者》的故事或許就要發生了。如果這樣太悲觀，那麼人類至少要考慮，如何與一個超越自己所有智慧和創造力的AI世界相處。

當然咯，樂觀的角度而言，未來的世界只會更美好：人類透過AR/VR接入統一的或者個人的元宇宙，人類主人只要動動嘴皮子，無所不能的AI助理就能根據要求自動生成內容，甚至直接生成可供人類體驗的故事/遊戲/虛擬生活。

這是一個更美好的盜夢空間，還是一個更美好的駭客帝國？

（笑）

無論如何，今天我們見證的AI繪畫能力的突破和超越，正是這條不歸路的第一步。

One More Thing

說個題外話作為結尾。儘管還沒出現，

但應該就在這兩年，我們可以直接讓AI生成一本指定風格的完整長篇小說，特別是那些型別化的作品，

比如《鬥破蒼穹》《凡人修仙傳》這樣的玄幻小說，還可以指定長度，指定女主角個數，指定情節傾向性，指定悲情程度和熱血程度，甚至xx程度，AI一鍵生成。

這完全不是天方夜譚，考慮到AI繪畫這一年坐火箭般的發展速度，作者甚至覺得這一天就近在眼前。

目前還沒有AI模型可以生成足夠感染力和邏輯性的長篇文學內容，但從AI繪畫模型氣勢洶洶的發展態勢來看，不久的將來AI生成高質量的型別文學作品幾乎已是板上釘釘的事情，理論上沒有任何的疑問。

這樣說或許打擊了那些辛苦碼字的網文作者，但作為一個技術愛好者和玄幻小說愛好者，作者對這一天的到來還是有些期待的：從此再也不需催更，也不需要擔心連載作者的寫作狀態了；更美好的是，

看到一半如覺得不爽，還可以隨時讓AI調整後續情節方向重新生成再繼續看……

若你還不確定這樣的一天即將到來，我們可以求同存異，一起等待。

最後分享一組作者用stable diffusion生成的

細節完全不同、風格又完全一致，質量還永遠保持滿格

的“帶有狹長走道的城市迷宮老建築區”系列。看著這些精美的AI作品，作者只有一種感覺，AI創作有“靈魂”了，不知讀者們，是否有同感？

本文來自微信公眾號：

Web3天空之城（ID：gh_a702b8d21cdf）

，作者：城主

奧推網

萬字整理:AI繪畫突飛猛進的一年半

相關文章閱讀