Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

量子位智庫發自凹非寺

量子位 | 公眾號 QbitAI

AIGC

（AI生成內容）

，這個概念最近可以說是火得一塌糊塗。

例如

Stable Diffusion

，只要對它說一句話，“唰唰唰”地就能秒生成畫作：

Big chunky Venom

（巨大敦實的毒液）

。

知名博主

大谷Spitzer

還用它“翻拍了”好萊塢國際巨星版的《華強買瓜》：

還有此前谷歌家的Imagen、OpenAI出的DALL·E系列等，也都成了備受網友們熱捧的AI內容生成神器。

甚至還有人拿著Midjourney生成的畫作參加藝術比賽，碾壓人類奪得頭籌，惹怒了一眾藝術家

。

但正所謂“能用起來的技術才是好技術”，網友們將諸如此類AIGC技術熱度推至的高度是對它實力的認可。

而此前市場還將專案釋出僅一個月的Stable Diffusion背後公司估值為69億元，這是資本對AIGC的肯定。

那麼站在現在這個時間節點上，是時候對AIGC從技術發展路線、產業落地方向等多角度做一個梳理。

因此，量子位智庫在進行深入調研之後正式釋出

《AIGC/AI生成內容產業展望報告》

，核心回答三大問題：

在技術上，AIGC已經可以完成哪些創作？

在價值上，AIGC除了直接生成藝術作品還能做什麼？

在未來，AIGC將如何改變內容及相關產業？

（完整報告獲取方式見文末）

AIGC技術及八大場景應用

AIGC全稱為AI-Generated Content，指基於生成對抗網路GAN、大型預訓練模型等人工智慧技術，透過已有資料尋找規律，並透過適當的泛化能力生成相關內容的技術。

與之相類似的概念還包括Synthetic media，合成式媒體，主要指基於AI生成的文字、影象、音訊等。

Gartner也提出了相似概念Generative AI，也即生成式AI。生成式AI是指該技術從現有資料中生成相似的原始資料。

相較於量子位智庫認為的AIGC，這一概念的範圍較狹窄。

我們認為，目前AIGC生成正在完成從簡單的降本增效

（以生成金融/體育新聞為代表）

向創造額外價值

（以提供繪畫創作素材為代表）

轉移，跨模態/多模態內容成為關鍵的發展節點。

技術視角下，我們認為以下場景將成為未來發展的重點：文字-影象-影片的跨模態生成、2D到3D生成、多模態理解結合生成。

商業視角下，我們認為未來3年內，虛擬人生成和遊戲AI這兩種綜合性的AIGC場景將趨於商業化成熟。

下圖中的綠色部分，是我們認為2-3年內具有快速增長潛力的細分賽道。

文字生成

以結構性新聞撰寫、內容續寫、詩詞創作等細分功能為代表，基於NLP技術的文字生成可以算作是AIGC中發展最早的一部分技術，也已經在新聞報道、對話機器人等應用場景中大範圍商業落地。

從現有的落地場景來看，我們將其劃分為

應用型文字

和

創作型文字

生成，前者的進展明顯優於後者。此外，從應用推廣的角度來說，輔助文字創作是目前落地最為廣泛的場景。

應用型文字大多為結構化寫作，以客服類的聊天問答、新聞撰寫等為核心場景。主要玩家包括

Automated Insights

（美聯社Wordsmith）

、

Narrative Science

、

textengine.io

、

AX Semantics

、

Yseop

、

Arria

、

retresco

、

Viable

、

瀾舟科技

等。同時也是

小冰公司

、

騰訊

、

百度

等綜合性覆蓋AIGC領域公司的重點佈局領域。

創作型文字主要適用於劇情續寫、營銷文字等細分場景等，具有更高的文字開放度和自由度，需要一定的創意和個性化，對生成能力的技術要求更高。

代表性的國內外公司包括

Anyword

、

Phrasee

、

Persado

、

Pencil

、

Copy.ai

、

Friday.ai

、

Retresco

、

Writesonic

、

Conversion.ai

、

Snazzy AI

、

Rasa.io

、

LongShot.AI

、

彩雲小夢

等。

除去端到端進行文字創作外，輔助文字寫作其實是目前國內供給及落地最為廣泛的場景。基本主要為基於素材爬取的協助作用，例如定向採集資訊素材、文字素材預處理、自動聚類去重，並根據創作者的需求提供相關素材。

這部分的國內代表產品包括

寫作貓

、

Gilso寫作機器人

、

Get寫作

、

寫作狐

、

沃沃AI人工智慧寫作

。

影象生成

影象生成的傳統思路是生成對抗網路

（GAN）

，由生成器和判別器兩部分組成，生成器將抓取資料、產生新的生成資料，並將其混入原始資料中送交判別器區分。

雖然說在現有的GAN在神經網路架構、損失函式設計、模型訓練穩定性、模型崩潰問題上取得了相應突破，提升了最終影象的特定細節、內在邏輯、生成速度等。

但要在實際應用中大規模穩定應用，GAN仍需解決以下問題：訓練不穩定、生成的樣本大量重複、結構及壓縮等問題。

2022年，Diffusion Model

（擴散模型）

成為影象生成領域的重要發現，甚至有超越GAN的勢頭。

相較於其他的影象生成模型

（比如GAN、VAE和基於流的模型）

，在所需資料更少的背景下，Diffusion Model的影象生成效果有明顯提升。

而在3D內容生成上，神經輻射場模型NeRF成為新一代模型。

NeRF透過將場景表示為隱式的神經輻射場，渲染時透過神經網路查詢位置上的場景資訊生成新視角影象。簡單來說，NeRF利用深度學習完成了計算機圖形學中的3D渲染任務。

基於對不同技術原理的梳理，我們將影象生成領域的技術場景劃分為影象屬性編輯、影象區域性生成及更改、以及端到端的影象生成。

屬性編輯部分，可以直觀的將其理解為經AI降低門檻的PhotoShop。現有代表公司包括

美圖秀秀

（美圖AI開放平臺）

、

Radius5

、

Photokit

、

Imglarger

、

Hotpot

、

Remove.bg

、

Skylum

（Mask AI）

、

Photodiva

。

影象部分編輯部分，指部分更改影象部分構成、修改面部特徵。典型代表為選入CVPR2022的InsetGAN，該模型由Adobe推出。

影象端到端生成主要指基於草圖生成完整影象、有機組合多張影象生成新影象、根據指定屬性生成目標影象等。

該部分包含兩類場景，分別為創意影象生成與功能性影象生成。前者大多以NPF等形式體現，後者則大多以營銷類海報/介面、logo、模特圖、使用者頭像為主。

垂直代表公司/產品包括

Deepdream Generator

、

Rosebud.ai

、

AI Gahaku

、

artbreeder

、

nightcafe

、

starryai

、

wombo

、

deepart

、

obvious

、

阿里鹿班

、

ZMO.ai

、

Datagrid

、

詩云科技

、

道子智慧繪畫系統

等。

音訊生成

此類技術可應用於流行歌曲、樂曲、有聲書的內容創作，以及影片、遊戲、影視等領域的配樂創作，大大降低音樂版權的採購成本。

我們目前最為看好的場景是自動生成實時配樂、語音克隆以及心理安撫等功能性音樂的自動生成。

TTS

（Text-to-speech）

在AIGC領域下已相當成熟，廣泛應用於客服及硬體機器人、有聲讀物製作、語音播報等任務。

目前技術上的的關鍵，在於如何透過富文字資訊

（如文字的深層情感、深層語義瞭解等）

更好的表現其中的抑揚頓挫，以及基於使用者較少的個性化資料得到整體的複製能力

（如小樣本遷移學習）

。

垂直代表公司包括

倒映有聲

、

科大訊飛

、

思必馳

（DUI）

、

Readspeaker

、

DeepZen

和

Sonantic

。

隨著內容媒體的變遷，短影片內容配音已成為重要場景。部分軟體能夠基於文件自動生成解說配音，上線有150+款包括不同方言和音色的AI智慧配音主播。代表公司有

剪映

、

九錘配音

、

加音

、

XAudioPro

等。

在TTS領域，語音克隆值得特別關注。該技術目前被應用於虛擬歌手演唱、自動配音等，在聲音IP化的基礎上，對於動畫、電影、以及虛擬人行業有重要意義。

代表公司包括

標貝科技

、

Modulate

、

overdub

、

replika

、

Replica Studios

、

Lovo

、

Voice mod

、

Resemble Ai

、

Respeecher

、

DeepZen

、

Sonantic

、

VoiceID

、

Descript

。

……

除此之外，因篇幅有限，更多AIGC落地細分場景可在文末獲取完整報告進一步瞭解。

不過總體而言，我們認為，不同賽道下AIGC應用落地推廣程度主要受到兩方面影響，特定技術的水平狀況以及在實際應用中出現的轉化門檻。

並且以下技術要素值得關注：

長文字生成

、

開放式文字生成

、

NeRF模型

、

Diffusion模型

、

跨模態大型預訓練模型

（支援的模態資料型別、模態對齊架構設計、支援的下游應用

）、

小樣本學習及自監督演算法

、

強化學習

及

環境學習

。

技術場景方面，我們認為短期內將有較明顯爆發的包括

閒聊式文字生成

、

個性化營銷文字

、

富情感及細節TTS

、

拼湊式影片生成

、

基於文字的AI繪畫

、

語音復刻

。

AIGC價值和產業發展分析

在量子位智庫看來，用AI進行內容創作的價值主要來源於五點。

區別於市場觀點，我們認為最後一點，也即與AI系統的個性化、實時化互動最能體現其潛在價值。

儘管目前AIGC尚無法完成精準可控的生成，但我們相信這一賽道未來的技術與市場規模上限。

以下為五點主要價值，重要性逐次遞增。

降低內容創作門檻，增加UGC使用者群體

AIGC能夠代替人工完成聲音錄製、影象渲染等工作，使更多人員能夠參與到高價值的內容創作流程中。預計這一效果在2B結構化內容生成的領域非常明顯，個別場景會出現2C服務。跨模態生成成為未來重點。

提升創作及反饋效率，鋪墊線上實時互動

目前來看，效率提升主要體現在提升專業人員的生產效率。使用者對於能夠動態互動的個性化數字內容的需求越來越高，傳統的開發方式無法滿足日益上升的需求，消費速度遠高於製作速度。需要AIGC填補供需間的差距。

但我們認為，更為關鍵的是，AI同樣提升了內容的反饋生成速度，對於實時互動內容有重大意義，具有將線下和真人的快速互動遷移到線上的可能，也即令AI承擔真人的社交、創作、協作功能，可能會出現新的潛在場景

（如社交類和探索類遊戲等）

。

目前來看，內容消費者變得更容易將現實情感需求投射在虛擬世界中，預計會產生許多深入實時的互動需求，市場規模可觀。

基於海量資料得到強創造性和開放性，有助於激發創意認知、提升內容生產多樣性

相較於人類藝術家，AI能夠接觸借鑑更多的資料，在基於prompt進行內容生成後，AI創作的內容會有更多的二次創造空間和自由度。

例如，生成演算法能基於特定條件或完全隨機的生成現實中不存在的形狀、色彩搭配、圖案或結構等，賦予內容創作更多可能，產生“超現實感”及“未來感”，推動藝術創新。

對不同模態元素進行二次拆解組合，改變內容生產邏輯及形式

透過語音克隆、編曲風格提取等手段，AIGC能夠將原客體所對應的不同模態資訊進行拆解，例如演講者的面部形象、聲音、演講內容等。

在重新組合之後，能夠完成過往受到條件限制無法完成的工作。例如路人的聲音+專業的播音邏輯、更符合特定審美的面部等，打破真人/真實場景在要素組合上具有的侷限性。

和其他AI系統或資料庫進行聯動，有實現高度個性化/高頻最佳化

在與特定的資料庫

（例如實時更新的客戶資料、市場反饋資料、特定主題下的歷史統計資料）

或AI系統進行聯動後

（如個性化推薦系統等）

，AIGC能夠在更為精準的未來預測/個性化預測基礎上調整其生成內容。

例如，根據使用者習慣調整內容營銷文字、根據所處渠道風格調整生成內容、參考歷史資料最佳化生成內容等。

產業鏈分析方面，由於我國的AIGC行業尚未發展成型，我們在此基於自身理解，繪製了產業鏈分佈圖。

目前，在上游，我國AIGC產業還有眾多欠缺，以資料標註為重點體現。

我們認為，未來業務關聯的大公司收購可能會成為主流現象，或應當存在較明顯的大廠擴充套件業務趨勢。但大廠的業務擴充套件動機往往在於透過新賣點快速獲取流量，最佳化核心業務，並不會過度關注AIGC本身業務價值的充分挖掘。

因此，在明確的新場景出來之前，我們認為這個行業更容易分散在不同的內容消費場景下。

我們所分析的行業門檻及核心競爭力：

無論是內容還是延展領域，在產品上最終需要回到一體化解決方案服務能力

迴避大廠商後期的競爭壓力

與行業的深度繫結關係

構建業務閉環

最後是我們基於此次調研所得出的六大關鍵結論：

完整報告可檢視微信文章文末獲取：

https：//mp。weixin。qq。com/s/VQefNw_TX48mjfiR927NkQ

— 完 —

量子位 QbitAI · 頭條號簽約

奧推網

Diffusion的火,只是AIGC的縮影 | 量子位智庫報告(附下載)

相關文章閱讀