奧推網

選單
科技

用了 TikTok 這個神器,我馬上把 PS 解除安裝了

影象變文字,這在今天已經不再是問題了。各式各樣的 OCR 功能讓你可以從圖片中提取文字變得更加容易,一幅圖讓 AI 來解釋也不是什麼大難題。

但畫圖對於今天的 AI 來說還是有難度的,識別圖片提取資訊對於 AI 來說是處理資訊。但作圖就多了一層,不僅要處理資訊,還需要完成創作。前者是選擇題,後者則是命題作文。

只是選擇題答得好之後,下一步也得答好自由發揮的主觀題。只是沒人想到,第一個在自家 app 上答出這道題的是 TikTok。

用 TikTok 生成 Facebook、馬雲

對比 Google、OpenAI 這類在 AI 行業投入頗多、浸淫已久的巨頭,TikTok 可能只是一個「插班生」。但插班生繞過巨頭先做出了難題,這怎麼不讓人感到驚訝?雖然插班生也使了一些巧勁,但至少做出來還是很令人感嘆。

TikTok 做出來的文字轉圖片功能被叫作「AI 綠幕(AI Greenscreen)」,取代了原先單調的白底,由 AI 來為你生成影片的背景。這些影片的背景未必每一個都能契合創作者的需求,但畢竟這是為你定製的、獨一無二的綠幕背景,運氣好的話或許和影片內容的主題也會更配。

發影片時點選特效即可體驗此功能。 圖片來自矽星人

我們就用這個新功能做了一些測試,看看 TikTok 畫出來的圖到底是怎樣的。在這些隨機測試的詞語中,有的畫作呈現讓人摸不著頭腦,但也有的被評價為「很好地描繪出了詭異感」。

大受好評的就是輸入「Facebook」呈現的畫作,你隱約能夠認出 Facebook 的藍色圖示,圖片中單個的眼睛和一隻耳朵營造了一種獨特的驚悚感。結合一下 Facebook 近期的新聞,不得不說這幅畫很好地描繪出了 Facebook 這個詞的感覺。

影象描繪準確的還有蘋果、中國這樣的詞。

前者能夠輕鬆看出是一個蘋果,後者也能看出中國風的建築,同時也避免了國旗這類在二創領域較為敏感的圖案。只是你要想要呈現的是蘋果公司的圖就很難了,哪怕是蘋果 + 蘋果 CEO 庫克的關鍵詞呈現的也是蘋果和菜餚相關的圖案。

不過無關的也有不少,比如我們嘗試了阿里巴巴、騰訊、位元組跳動,生成的也不能板上釘釘地說和這些品牌無關。但不管怎麼說很難一眼認出,多少有些抽象。

輸入人物姓名繪出的圖畫也有不少有意思的。在海外知名度不低的手工博主李子柒名字生成的就是一幅讓人舒心的風景畫;著名的英超前主教練溫格生成的圖畫也能讓人一眼認出,屬於經典照片重新解構的風格;馬雲的風格也有點詭異,和 Facebook 一致的眼睛有種窺視感。

至於馬斯克,我們用 TikTok 生成了四個圖片沒有一個能認出來的。

當然除了透過人物詞成功、抽象圖畫,也有被認為表達得恰到好處,可以讓人聯想起來的 Switch、廣州。

塞爾達式風格的畫作,裡面有的人物可以讓粉絲認出「這可能是馬里奧」。同樣廣州標誌性建築和絢麗的色彩也能讓人輕鬆識別。

每張背景圖生成的時間不到 5 秒,如果主題相近,那麼這些圖用來做影片的背景圖是非常合適的。生成的時間短,人人可用,這都是 TikTok 的優勢所在,所以這樣一個文字轉影象的產品出現在一個日活上億的應用上也可以算是一個標誌性事件。

只是 TikTok 還是走了捷徑。

目前產生的圖片幾乎都屬於畫作風格,很多甚至屬於抽象派、印象派。和生成寫實的影象相比,這個難度就低了不少。畢竟就算不像也能靠腦補,理解你輸入詞的 AI 和去美術館看畫展的你面對的都是一樣的問題——如果相似不夠,那就理解來湊。

這是一種省成本的方法,難度低一點,需要耗費的算力也低,成本也就更低了。

即便是內容略有血腥文字呈現的圖片也不會太過驚悚

文字變圖,連 Google 都還沒有即時生成的產品

從效果上來看,TikTok 的 AI 綠幕呈現效果並不能打上超高分。但作為一項門檻頗高的技術,能夠在幾秒內被使用者無門檻地使用到就已經算進步了。

雖然受限於生成圖片目前還不夠「日常」,不夠寫實不會引發技術濫用和圖片造假的擔憂。但寫實的圖片其實已經可以做到了,只是還不到 AI 綠幕這種人人可用的程度罷了。

Google 也曾釋出過一個 Imagen AI 工具,可以把簡單的句子變成一張真實的圖片——像拍出來的照片一樣真。但很遺憾,即便是在 AI 這方面投入巨大的 Google 也沒能做出即時生成的產品。換句話說,輸入要求讓 AI 給你畫圖的選項在 Imagen AI 還沒有。

Imagen AI 可以點選不同選項作出不同圖片

目前官網目前還只有一些預設的選項,就算每一個都點一遍也不過幾十種搭配,但有寫實風格和油畫風格可以選擇。感興趣的讀者,還是可以自己去點點玩玩看。

Google 屬於名氣大,一舉一動都會備受關注的型別。而人工智慧研究實驗室 OpenAI 則是靠作品——它們推出了最原始、最受歡迎的人工智慧文字到影象生成器 Dall-E。

Dall-E

Dall-E 可以從文字內容中對現有影象進行逼真的再編輯,它可以為你新增和刪除元素,在進行這些操作的同時還會考慮陰影,反射和紋理的呈現效果——PS 技術可以秒殺你。從已有的畫作中分析模仿進行替換更是非常簡單,靈感風格來源於原作,就是換了主角。

作為一個研究專案,Dall-E 還處於封閉測試階段,而在名單中「有限數量的可信使用者」在社交媒體上早就釋出了一張又一張的照片。每個參與測試的使用者最初可以獲得 50 個免費積分,此後每月 15 分,1 分可以用一個文字內容生成 4 張圖片,還可以選擇三種畫風。

目前 Dall-E 還有很少的變現方式針對內測使用者——每月 15 積分用完後還想要體驗服務,可以花 15 美元購買 115 個積分。

好在生成的圖片也可以被商業化,一旦你透過 Dall-E 創作了它,就可以把它們用於插圖、封面、T 恤設計等各個方面。

使用者可以在設定好的位置新增元素,新增進照片的元素在陰影等方面也會自動補充

影片導演 Karen X。 Cheng 就對彭博社表示:

我一連好幾個小時都在體驗生成圖片,甚至迷失了方向……這感覺更像是你在和一個活生生的、會呼吸的人合作,和你合作的已經不是 Photoshop 那樣的工具了。

當然 Dall-E 目前也並非完美的,想要創造出完全逼真的人臉對它來說依舊有點難,需要專業醫學知識攝入才能夠準確的人類骨骼呈現它做的也不是很好。研究員 Aditya Ramesh 就表示 DALL-E 只知道如何閱讀文字繼而生成圖片,所以它其實是在努力創造一些視覺效果相似的內容。

Dall-E 生成的奇幻圖片

這項技術當然是很有前景的,你可以想象它為內容創作者降低圖片尋找的門檻,也可以想象畫像師在它的幫助下可以提升效率。但正如每一個技術的出現都可能被濫用一樣,AI 幫助文字生成圖片的技術也有這樣的風險——那些 Deepfake 上曾出現過的負面應用場景都會一一重現。

好在這次技術提供者早就提早做好了準備想要把 AI 關在籠子裡了。

TikTok 的抽象圖片本身就是一重保護,因為它不寫實。此外,即便你在 TikTok 中輸入一些充滿暗示的內容(暴力、裸露)呈現出來的畫作依然不如預想中的那樣,抽象的風格並不清晰也規避了稽核需要付出的巨大成本。

Dall-E 官網的限制說明

Dall-E 也限制了 AI 生成暴力、成人、仇恨內容,在演算法中就儘量減少了 Dall-E 對此類概念的接觸。同時,平臺也有先進的技術防止使用真實的人的面部生成影象(名人鬆了一口氣),自動化和人工監控系統亦能防止 Dall-E 的濫用。

只是所有新技術的出現也不能只看壞的那一面,它所帶來的高效前景就很值得期待。

至少,愛範兒就很期待哪天推送的文章末尾寫著「文章題圖由 Dall-E 生成」。