奧推網

選單
科技

2023年的人工智慧:應用層已經到來

今天出生的人們,他們將目睹人工智慧重塑人類生活、工作和社會的方方面面。

文|boxi來源|神譯局封面來源|視覺中國

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:很多人都預測 2023 年將是 AI 之年。但 AI 顯然不是今年才開始爆發或者炒作起來的。但是 2022 年影象生成工具以及聊天工具 ChatGPT 等消費者化是人工智慧開始普及應用的標誌,2023 年這股趨勢只會愈演愈烈。本文剖析了 AI 的用例與商業模式,也許我們將迎來繼農業革命、工業革命以來的第三種通用技術的普及。文章來自編譯。

現在 AI 令人興奮的一點是平臺層正在固化,這意味著應用層該出現了。換句話說,也就是你我每天都會接觸到的東西該出現了。

過去這幾個月的時間裡,我已經寫了好幾篇與 AI 正在發生的事情有關的文章。鑑於這是我們進入 2023 年要面對的技術主題,在此我想把那些文章都整合一下,寫一篇深度探討的文章,然後進一步拓展。

其結果是這篇文章的篇幅要長很多,但在關於我們現在處在什麼位置的事情上,我希望它能提供一份類似‘國情諮文’的快照,同時就“我們未來要去哪裡”給出一些提示。

讓我們開始吧。

每當我思考人工智慧領域在發生著什麼時,我往往會想到兩部電影。一部是 33 年前問世的老片,一部是 10 個月前問世的新片。

1990 年上映的《超國度》(Hyperland)幾乎已被人遺忘。這部科幻電影的導演是道格拉斯·亞當斯 (Douglas Adams),他更出名的身份是《銀河系搭車客指南》的作者。電影的假設是亞當斯對被動式的線性電視已經厭煩了,電影稱就是“那種發生在你身上,而你就像一個沙發土豆一樣坐在它面前的電視。”

為了尋找更具互動性的媒體形式,亞當斯把他的電視帶到了一個垃圾場,在那裡他遇到了湯姆(由湯姆·貝克飾演)。湯姆是一位軟體代理——本質上屬於一個數字管家,能夠根據你的特定興趣為你提供個性化的資訊和娛樂飲食。湯姆帶領我們的主人公穿行於一個超媒體的虛擬世界——一個由連結的文字、聲音、影象和影片組成的世界。換句話說,湯姆帶著亞當斯踏上了網際網路之旅。(或者說得更具體一點,是穿行於一個漫長而曲折的兔子洞,跟維基百科類似——但比維基百科的出現早了 11 年)。

《超國度》,尤其是湯姆這個角色,讓我想到了我們目前的現實:人工智慧驅動的演算法推薦引擎,根據我們獨特的興趣圖譜塑造出的一個超個性化的網際網路。這就是我所說的“一切都被 TikTok 化”。(David Karpf 提出了一個很有智慧的看法,即超國度與現代之間有一個關鍵區別:在電影裡面,是你在控制演算法;當然,現如今的演算法已經過最佳化,可以替開發和部署它們的公司賺錢。)

我想到的第二部電影面世的時間要近得多:2022 年 3 月的《瞬息全宇宙》,在我看來,這有可能是今年奧斯卡最佳影片的潛在競爭者。在我最近的記憶中,《瞬息全宇宙》屬於線索比較混亂的電影之一。這部電影講述的是伊芙琳(楊紫瓊飾)的故事,她是一名中國移民,經營著一家正在接受美國國稅局審計的自助洗衣店。伊芙琳很快發現,她生活在無限宇宙裡面的一個宇宙,她必須穿越多重宇宙才能拯救她的家人。

從很多方面來說,這部電影都是對網際網路之亂的隱喻。在接受 Slashfilm 的採訪時,電影導演之一的丹尼爾·謝納特(Daniel Scheinert)是這麼說的:“我們希望這部電影的極簡主義能夠與沒完沒了地刷屏的感覺建立關聯”。

YouTuber Thomas Flight(對這部電影做出了出色的分析)稱《瞬息全宇宙》是第一批“後網際網路”電影之一,因為它捕捉到了線上生活的怪異之處。生活在 2023 年的迷人的一點在於,我們的大腦與一個世紀前相比沒有什麼不同(事實證明,進化需要很長時間),但我們的世界在 100 年內卻發生了翻天覆地的變化。正如 Flight 所說的那樣:“我們現在生活在這樣一個時代,在一次 30 分鐘 TikTok 狂歡裡,我們體驗到的有趣想法、概念、人物以及地方,就要比我們被困在當地目不識丁的祖先一輩子所經歷過的東西都要豐富。”快速演變的數字混沌會如何扭曲我們緩慢進化的人類思維呢?

《瞬息全宇宙》裡面的宇宙是多種多樣的,而且非常非常的奇怪。在一個沒有人類生命的宇宙裡,每個人都是一動不動的石頭。裡面還有一個宇宙,這個宇宙裡面每個人都是蠟筆畫。另一個宇宙裡,每個人的手指都變成了熱狗(我告訴過你這很奇怪)。

《瞬息全宇宙》這部電影捕捉到了網際網路的運動能量與無情的節奏。

不過,這部電影讓我想到的不是網際網路,而是生成式人工智慧正在發生的事情。就像電影讓主人公將她想象中的任何東西都轉化為有形的現實一樣,生成式 AI 也讓我們將想法變成了文字、影象和影片。

這是當我輸入提示“A person made entirely of fruit”(一個完全由水果組成的人)時 Midjourney 生成的結果:

這是我輸入“New York City skyline in the style of Van Gogh”(梵高風格的紐約市天際線)時得到的結果:

我可以花幾個小時(而且我已經花了幾個小時)去試驗這樣的提示。

2022 年取得突破的生成式人工智慧是自十多年前移動和雲計算興起以來最引人注目的技術。平臺層正在鈣化,我們正目睹著令人興奮的應用層的萌芽——這些產品有可能成為數十億人日常生活的一部分。

這篇文章的目的是研究 AI 這一時刻背後的“為什麼是現在”,並探索初創企業可以如何利用 AI來進行開發。本文內容將分為以下幾部分:

搭好舞臺

演算法推薦系統

影象模型

語言模型

生成式人工智慧的用例

商業模式

最後思考及待回答的關鍵問題

好了,讓我們開始吧。

搭好舞臺

在過去十年裡,有兩股重要力量推動了技術的發展:分別是移動和雲計算。

移動促進了大型消費網際網路公司的崛起:Uber 與 Lyft、Instagram 與 Snap、Robinhood 與 Coinbase 。這些公司基本上都成立於 2009 年至 2013 年間。數字廣告在 2010 年代迅速轉向移動裝置,Facebook 等桌面時代的公司不得不爭先恐後地重塑業務。

明年移動應用內廣告的支出預計將超過桌面廣告 - Marketing Charts

雲計算則支撐了軟體即服務 ( SaaS ) 的爆發式增長,並讓資料變成企業最寶貴的資源(“資料就是新的石油”云云)。這一領域的新興公司基本上也都成立於 2009 年至 2013 年之間,其中包括 Slack 與 Airtable 、Stripe 與 Plaid、Snowflake 與 Databricks 等。

從 2015 年到 2022 年間,儲存在雲端的企業資料佔比翻了一番:

儲存在雲端的企業資料;資料來源:Statista

這是過去 10 年 AWS 收入情況圖,很少有圖表比這幅圖更令人印象深刻(利潤率高達 35%!):

AWS 收入($B);資料來源:Statista

移動和雲計算讓 2010 年代成為技術領域非常非常好的十年。但在過去的幾年裡,我們看到很多人都在嚷嚷接下來會發生什麼。虛擬現實?增強現實?自動駕駛汽車?加密貨幣?Web 3?

這些技術個個都很有趣,原因各不相同,有趣的用例也各異,但都還非常非常早。整個 VR 行業僅相當於蘋果 2021 年營收的 2%。(雖然隨著蘋果即將推出的混合現實頭顯,情況可能會有所改變。)圍繞新技術的炒作太多,而源於對移動和雲計算的焦慮的“平臺轉變”已經……過時了。AWS 推出時間是 2006 年;iPhone 在 2007 年問世。移動和雲計算都還沒有飽和,但它們的新機遇並不像以前那樣成熟了。與此同時,我們看到前所未有的私有資本開始湧入,去追逐創業公司:

風投資金在 2021 年激增至 3300 億美元

2020 年代最引人注目且最有可能推動技術發展的力量是什麼?也許是人工智慧。人工智慧在過去幾年中得到了顯著改善。直到最近,Gmail 的自動補充句子功能幾乎還沒法用;但現在已經好得嚇人。Facebook 使用者將認識到 AI 在識別照片裡面的朋友方面已變得有多麼出色;實際上,Facebook 的 DeepFace 引擎現在比人類還要擅長面部識別。就在去年夏天,我們看到了從 Stable Diffusion 到 Midjourney、ChatGPT 到 Lensa 的一切事物的湧現。人工智慧正在成為主流。

Facebook 的DeepFace現在比人類還要擅長面部識別

我們正處在人工智慧的轉折點(原因稍後會詳細介紹),這個轉折點正在支撐起創新的寒武紀大爆發。2009 年至 2013 年誕生了數十家由移動和雲計算技術提供支援的變革型初創公司。未來幾年這樣的公司將再度湧現,但這次,人工智慧將成為催化劑。

前一段時間,有位朋友問了我一個問題:AI 是泡沫,還是下一個大事件?答案可能是兩者兼而有之。

現在有很多令人興奮的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者兩者兼而有之。但是當你將畫面拉遠時就能發現,毫無疑問我們正處於一個激動人心的技術新時代的風口浪尖。

演算法推薦系統

最近的大部分討論都圍繞著生成式人工智展開,但“傳統”的人工智慧仍有很大的發展空間。曝光度最高的人工智慧應用是什麼?也許沒有比 TikTok 的For You Page(為你推薦)更高的了,對於《超國度》那個具有先見之明的超個性化的網際網路來說,這可以說是它最好的現代類比。

TikTok 沉浸式、演算法性的 For You Page 開創了內容策劃的新風尚。一開始,每個釋出出去的影片都會被推送給一組的初始受眾,然後根據他們觀看了多長時間、是否喜歡影片、是否對影片發表了評論等等,對這些觀眾的反應進行評估。如果受眾反應良好,影片就會被推送給更多的受眾,如此迴圈往復。

TikTok的演算法

我最近跟同事 Martin 討論了一下移動和雲計算之後技術的下一步會是什麼。我們聊起了 AI,並回想起十年前那張著名的“解綁 Craigslist”的圖表。

就是這張圖:

將業務從Craigslist解綁出來誕生了大批初創企業,迄今為止這批企業的融資額達到了88。7億美元 資料來源:CB Insights

這裡還有一張,要表達的概念是一樣的,但更清晰:

平臺 Vs 垂直領域及下一個大解綁 | Andreessen Horowitz 圖片來源:Andrew Parker

這些圖有一個基本前提,那就是原先市場的主要品類正在被更專注、更好的產品所重塑。通常,顛覆者會利用某項新技術:比方說,Tinder 是第一批只支援移動裝置的約會 app 之一。

AI 應用可能也會帶來類似的清算。主要的品類——如約會、房地產、求職等——可能會因為有人能更好地利用人工智慧而被徹底顛覆。當 AI 可以把跟你完美匹配的物件呈現出來時,為什麼還要上 Tinder 沒完沒了地刷屏?十年之後,我們可能會看到上圖有了一個新版本,裡面出現的也許是全新的公司 logo——AI 優先的公司會重塑每一個品類。當然了,生成式人工智慧一定會從中發揮作用,但類似 TikTok 的推薦系統也很強大;就數字世界將越來越適合我們的獨特品味和偏好而言,我們仍處於早期階段。

讓我們看個例子——交易。

從很多方面來說,SHEIN 都算是 TikTok 的姊妹公司。SHEIN 與位元組跳動(TikTok 的母公司)都是中國公司,而且位列全球最有價值的三大初創公司之一(位元組跳動排名第一,美國的 SpaceX 排名第二,SHEIN 排名第三)。

就像 TikTok 滲透了美國的媒體一樣,SHEIN 也打入到美國的快時尚——

美國快時尚市場Shein佔據了最大的份額 - Bloomberg Second Measure

這張圖換了個視角,把 SHEIN 與 H&M 和 Zara 的銷售額進行比較:

中國快時尚品牌Shein如何征服美國市場 - Euromonitor。com

SHEIN 的爆發式增長非常引人注目:SHEIN 已經連續八年(!)每年的增長率都超過 100%,其在非公開市場的最新估值已經超過 Zara 和 H&M 市值之和。2022年 6 月,SHEIN 取代亞馬遜,成為 iOS 和 Android 應用商店排名第一的購物應用。

SHEIN 的速度令人矚目:這裡每天都要上架 8000 件新商品,而 Zara 每週才新增 500 件。SHEIN 基本上屬於網際網路原生的 Zara 和 H&M 轉世,利用了更好的技術把從設計到生產的時間從三週壓縮到了三天。SHEIN 透過梳理競爭對手的網站和 Google Trends,找出流行的款式,然後快速做出自己的設計,預測需求,實時調整庫存。

我們再說回 AI,SHEIN 給我留下的其中一個深刻印象是它的推薦。就像位元組跳動會預測你想看的內容一樣,SHEIN 會預測你想買什麼衣服。SHEIN 之於電商就像位元組跳動之於內容。

這個週末,為了給朋友即將舉行的 30 歲生日聚會準備東西,我打算到網上購物。這個派對以《亢奮》(Euphoria)為主題,也就是說,基本上你得穿得像 HBO 那部美劇的裡 Maddie 、Cassie 或 Nate Jacobs 一樣。我之前從來都沒上 SHEIN 買過東西,但我輸入了“男士黑色網紗上衣”來找衣服。然後我點選了“褲子”品類,結果看到了這個螢幕:

只是搜尋了一次網紗上衣,SHEIN 就能夠預測出風格和主題非常相似的褲子。這非常令人印象深刻。(還有,請不要以為這些就是我平時穿的衣服。)

從某種程度來說,這是 Stitch Fix 開創的個人造型訂閱盒概念的更復雜版本。Stitch Fix 給整個過程引入了人,也利用了資料科學,但其基礎是新客戶引導冗長的問卷調查。而 SHEIN 只根據我輸入的四個詞(也許還參考了我點選的內容、滑鼠懸停的位置等資料)就做出了準確的推薦。

Stitch Fix 的個人造型市場已被證明相對小眾,而且它的股票也已受到重創。活躍客戶已降至 390 萬,同比下降 20 萬人(下降 5%)。該公司正在努力向 Freestyle 產品轉型——這是一種更傳統的購物體驗——但這個細分市場仍然只佔該公司業務的一小部分。

Stitch Fix 的訂閱盒裡面是由造型師和資料科學策劃的推薦產品

儘管 Stitch Fix 舉步維艱,但它的目標是突破性的——個性化商務。這家公司幾年前就提出了這個概念,但當時人工智慧還不夠成熟,沒法取代冗長的問卷調查以及小規模的資料科學家隊伍。SHEIN 朝著正確方向邁出了一步,但我們仍站在人工智慧驅動推薦的風口浪尖。

想象一下,如果有家公司能梳理你的相機膠捲,並以驚人的準確性為你推薦一大批新衣服會怎樣?或者,也許這家公司只需要請你將 Instagram 帳戶關聯一下,然後就能消化你的所有點贊和關注,即可提供極其準確、個性化的時尚推薦。

人工智慧的主要消費者應用將大量依賴於嫻熟的推薦。這些推薦能預測到連你都不知道的需求與願望——就像 TikTok 的 For You Page 一樣:它能夠在人們自己還沒意識到之前就向對方表明他們是性少數者。也許上面的示例公司可以在一條 FYP(For You Page)動態訊息中重塑商業,讓你每次瀏覽一個精心策劃的商品——雙擊即可購買,向上滑動即可檢視下一件東西。

世界正在向著個性化轉變,而人工智慧是在給這股趨勢火上澆油。我的朋友 Alex 說的一席話我很喜歡:

2023年的人工智慧:應用層已經到來

在AI的幫助下,一對一輔導正在成為可能突然之間,“一對一”體驗可以大規模複製了——與我們在未來幾年看到的應用相比,今天的 AI 應用仍處在初級階段。想想看,上面的每一個 Craigslist 類別——教育、書籍、家居裝飾等。每一個都即將被重塑。

2023年的人工智慧:應用層已經到來

影象模型

2022 年文字生成影象 AI 爆發了。首先出現的是來自 OpenAI 的 DALL-E (這個名字綜合了藝術家薩爾瓦多·達利以及皮克斯的那部動畫片,《機器人瓦力》,WALL-E)。當然,不是誰都可以直接用 DALL-E,但這方面的創作已經開始在網際網路上火起來了;Twitter 上面我最喜歡的賬號是 Weird DALL-E Generations。

2023年的人工智慧:應用層已經到來

網際網路上用DALL-E 生成 11 張最奇怪的影象 | Mashable

對於這個世界大部分的地區來說,DALL-E 是 AI 的第一個真正的“哇哦”時刻。在與麻省理工學院交流時,OpenAI 的 Sam Altman 把這一點歸功於影象所傳遞的情感力量:

我想說的是,其實相對於 DALL-E,技術界對 2020 年推出的 GPT-3 要更加認可。從 GPT-3這裡,你第一次真正感受到了系統的智慧。它可以做人做的事情。我認為它的出現讓以前根本不相信 AGI [通用人工智慧] 的人也要認真對待這一話題了。發生在 GPT-3 身上的有些事情是我們大家都沒預料到的。

但是影象卻有著獨特的情感力量。相對於 GPT-3 ,世界其他地方對 DALL-E 的欣賞要高很多。

人往往更喜歡更豐富的媒體格式:Instagram (主要媒體是照片)一直都比 Twitter(以文字為主)更受歡迎;與此同時,TikTok (主要是影片)在使用上一直在蠶食 Instagram 的市場,迫使後者也得向影片轉型(透過 Reels )。在我看來,類似的偏好也會發生在生成式人工智慧身上:影象 > 文字,很快,影片也會 > 影象,以及最終沉浸式 3D 體驗將 > 影片。(消費者偏好的這一事實也是我從長遠看繼續看好 VR 和 AR 的原因。)

在 DALL-E 起勢之後,去年夏天 Stable Diffusion 和 Midjourney 的出現徹底改變了局面。Stable Diffusion 具有開創性,因為它是開源的,這意味著開發者基於它做開發。稍微解釋一下,Stable Diffusion 將擴散從畫素空間轉移到了潛在空間,從而推動了質量的顯著提高。(如果你感興趣的話,可以看看這一篇文章https://36kr。com/p/2085103366422920。)與此同時,Midjourney 在可訪問性方面具有開創性。Discord 上就能使用 Midjourney :任何人都可以註冊一個免費賬號,並獲得 25 個積分,影象則是用公共伺服器生成的。用完 25 個積分之後,每月支付 10 美元或 30 美元就可以繼續使用(具體多少錢取決於你要創作的影象數量以及你是否希望生成的影象保持私密)。Midjourney 已迅速成為 Discord 上最受歡迎的伺服器之一(也許是最受歡迎的伺服器?),擁有 740 萬會員。

下圖是 Midjourney、DALL-E 2 以及 Stable Diffusion 在使用相同的文字提示時生成的影象,各自風格略有不同:

2023年的人工智慧:應用層已經到來

下面這條時間線從更寬泛的角度展示了 AI 影象生成在過去十年是如何得到改進的(請留意近年來提示的複雜性的不斷增加,以及輸出的保真度在不斷提高):

2023年的人工智慧:應用層已經到來

去年是影象模型的轉折點,生成的影象質量得到了迅速提高。舉個例子:眾所周知,AI 很不擅長創作手。除非 AI 具有出色的上下文感知能力,否則很難知道已經弄出了多少根手指。其結果是我們最終會得到很多有四根或六根手指的手。下圖是 Midjourney v3(2022 年 7 月)與 Midjourney v4(2022 年 11 月)生成結果的對比,你能看出結果有了明顯改進:不再會出現有兩隻喙或三條腿的企鵝。

2023年的人工智慧:應用層已經到來

當我想到影象生成早期遇到的挑戰時,就會回想起一個世紀前動畫在早期面臨的挑戰。米老鼠為什麼要戴手套?原因之一是這樣製作動畫可以更快;手是很難畫的。《聰明笨伯》(Fred Flintstone) 和 喬治·傑森(George Jetson)也是如此——你看不見他們的脖子,因為有脖子意味著角色的整個身體都得跟隨每個動作和表情而移動。這意味著動畫師要做更多的工作。領帶和高領讓動畫師得以投機取巧,加快製作動畫的速度。

2023年的人工智慧:應用層已經到來

傑裡·鄧肯(Jerry Duncan)與聰明笨伯交談 - Dean Kaner,《幽默時代》

當然了,半個世紀之後,動畫已經取得了長足進步。《海底總動員》在某種程度上是皮克斯展示自己可以製作出逼真的水動畫的藉口。《怪獸電力公司》裡面的形象也是如此。皮克斯一直等到第 6 部動畫片《超人總動員》才第一次開始描寫人類的故事,因為 CGI 技術之前還沒有為此做好準備(指玩具總動員)之所以專門講玩具,部分是因為皮克斯還不能對逼真的人類細節進行渲染——所以在電影中你幾乎看不見安迪和他媽媽的影子)。

數字創作的軌跡正在沿著動畫的軌跡前進,但技術發展的步伐只會越來越快。比方說,上面 Midjourney 生成的企鵝影象之間的差異只是短短几個月之間的對比結果。

2023年的人工智慧:應用層已經到來

語言模型

《黑鏡》第二季的《馬上回來》(Be Right Back)講的是一對夫妻一起搬進了新家。結果第二天,丈夫出車禍身亡了。後來他的遺孀得知有一項新服務可以讓她與已故的丈夫聊天;這款工具能夠消化簡訊以及社交媒體的歷史記錄,從而瞭解伴侶會如何迴應,然後代替他與客戶聊天。這一集(2013 年播出)的情節現在已經成為現實。在針對個人資料進行訓練的基礎,初創企業 HereAfter。ai 就提供了與已故親屬的互動化身聊天的服務。

去年,在影象模型出現飛躍的同時,語言模型也突飛猛進。去年 11 月, OpenAI 推出了 ChatGPT ,剛推出五天,這款聊天工具就收穫了 100 萬用戶。ChatGPT 的表現令人難以置信;使用它的感覺跟你第一次用上 Google Search 一樣,都有“魔法時刻”降臨的感覺。(每次使用 ChatGPT 時,我都會想起亞瑟·克拉克的名言:“任何足夠先進的技術都與魔法無異。”)

下面的一些例子說明了 ChatGPT 能做什麼:

提示:“什麼是蟲洞?把我當作 5 歲小孩給我解釋一下。”

2023年的人工智慧:應用層已經到來

讓chatgpt用通俗易懂的方式解釋蟲洞

提示:“提供一個 29 歲生日派對的創意。”

2023年的人工智慧:應用層已經到來

使用 chatGPT提出派對創意

提示:“用伴奏的和絃寫一首關於在家工作的歌曲。”

2023年的人工智慧:應用層已經到來

讓 chatgpt用和絃寫音樂

人工智慧現在這種發展和採用的節奏可以追溯到 2017 年當時谷歌發表的一篇開創性論文,《Attention Is All You Need》。這篇論文由 Cohere。ai 創始人 Aidan Gomez 與人合著,從中催生出一個規模呈指數級增長的“transformer”模型時代。

不到三年前的 GPT-3 推出時的引數規模為約 2000 億,但新的 GPT-4 將有約 1,000,000,000,000(萬億)個引數。

2023年的人工智慧:應用層已經到來

在提出新想法、理解上下文以及回憶資訊的能力方面,每個新模型都實現了飛躍。但更大的模型的訓練成本也高很多。訓練有數千億個引數的模型可能要花費數百萬美元。出於這個原因,大規模模型正在成為初創公司創立的基礎。我的同事 Erin Price-Wright 將其類比為亞馬遜的 AWS 或微軟的 Azure——數百萬企業所依賴的雲計算平臺。

比方說,許多初創公司都建立在 OpenAI 的 GPT-3 基礎之上。舉個例子,Jasper 提供了一個由 GPT-3 提供支援的 AI 撰稿人。每月只需交 29 美元,Jasper 就能讓你擁有寫作的超能力。不過,Jasper 對 OpenAI 推出免費的 ChatGPT 感到吃驚,擔心這會蠶食自己的業務。基礎模型和基於這些模型建立的公司之間的關係會如何發展?這是今年值得關注的一件事情。

2023年的人工智慧:應用層已經到來

生成式 AI 的用例

手寫文字識別是最早的人工智慧形式之一,郵政服務主要用它來讀取信封上的地址。但是人工智慧的這個用例非常特殊。在生成式人工智慧方面,我們已經看到:1) 影象和語言模型有了巨大改進,以及 2)OpenAI、Hugging Face、Stability。ai 等公司提供的寶貴基礎設施。這兩個因素相結合拓寬了用例的可能性。

2023年的人工智慧:應用層已經到來

AI系統的語言與影象識別能力得到了迅速改進 資料來源:Our World in Data

之前在與 Daniel Gross 和 Ben Thompson 進行對話時,Nat Friedman 關於機會的思考方式我很喜歡:

一說到 AI 和大型語言模型時,人們往往認為需要大量專業知識。為了處理這些東西,我得了解深度學習,以及,哦天哪,我可能還得懂微積分或至少線性代數,可是我根本就不太喜歡那種東西。我需要知道怎麼給 Nvidia 硬體編寫 CUDA 核心程式?這可太嚇人了。

我認為他們疏忽了一點,這其實是個謬誤。這個謬誤就好比要想製作顏料,你得是化學家。所以如果我想成為一名畫家的話,我必須學習化學。但現實情況是,你不需要知道如何製作顏料就能成為一名偉大的畫家。同理,我認為你不需要弄清楚大型模型是怎麼做出來的,也可以用它們做出出色的產品。

我喜歡這個比喻。任何人都可以更輕鬆地開發出利用 AI 去畫畫的工具。變革每個行業的機會已經成熟。

如果極度簡化的話,我們可以把用例分為兩類:1)創意類,以及 2)生產力類。

說到創意,我們看到生成式人工智慧降低了創作的門檻。利用 Midjourney,你可以給電影製作概念圖。Latitude。ai 等公司開發出 AI Dungeon 等遊戲,利用 GPT-3 進行 AI 驅動的探索。與此同時,Alpaca 所做的 Photoshop 外掛演示在 Twitter 掀起了一股風暴;這家公司的使命是“將 AI 影象生成能力與人類技能結合到一起”。

我過去也曾寫過創意工具日益普及的文章。早在 2015 年時,Steven Johnson 就曾在《紐約時報》上撰文:

消費文化的成本可能已經下降,儘管下降的幅度沒有我們擔心的那麼多。但製造成本下降得更厲害。作者不需要印刷機或國際分銷商的服務就可以為全球讀者創作和出版小說。對於獨立電影製作人來說,幾年前可能要花費數萬美元的直升機航拍畫面,現在只需不到 1000 美元的 GoPro 和無人機即可拍攝;有些導演用 iPhone 即可拍攝一整部高畫質質量的電影。蘋果售價為 299 美元的剪輯軟體 Final Cut Pro X 就可以剪輯奧斯卡獲獎影片了。利用 Native Instruments 軟體,音樂家即可以驚人的保真度重現在維也納音樂廳演奏的施坦威三角鋼琴的聲音,或數百種不同的吉他放大器聲音,或甲殼蟲樂隊在《永遠的草莓地》(Strawberry Fields Forever。)中使用的 Mellotron 合成器聲音。15 年前,這些聲音可能需要花費數百萬美元才能合成出來;今天,你只需幾千美元就可以擁有所有這些。

這很了不起,而且至今依然適用:2020 年奧斯卡最佳影片《寄生蟲》就是用 Final Cut Pro 剪輯的。工具正逐漸變得更實惠、更容易獲得,讓更多的創作湧現。

人工智慧拓寬了可能性。想象一下由人工智慧驅動的 Roblox Studio,或者當人工智慧與 Figma 結合在一起時可以解鎖什麼。我製作這張圖至今已過去兩年多了:

2023年的人工智慧:應用層已經到來

YouTube 是革命性的,但卻給創作製造了很高的門檻:1) 工具需要昂貴的投入,以及 2) 使用這些工具需要具備 know-how 知識。TikTok 這一類似無程式碼的方式降低了這些門檻,創造出一個公平的競爭環境。其結果是 YouTube 上大概每 1000 人才有 1 人創作內容,而接近 60% 的 TikTok 使用者都會自己創作內容。

也許今年這張圖可以用第三個框更新一下——一個超越無程式碼創作工具的更直觀、強大的工具,並在創作內容的過程中利用生成式人工智慧。用這個工具為 Instagram 製作照片、為 TikTok 製作影片或為全新社交網路創作內容。

就像人工智慧增強了創意一樣,人工智慧也增強了生產力。我們在賦予作者和營銷人員超能力的工具中就能看到這一點,比方說像 Jasper。ai、Copy。ai、Lex 這樣的工具。我讓 ChatGPT 幫我頭腦風暴,給我的自媒體設計新標語,它的推薦令人印象深刻:

2023年的人工智慧:應用層已經到來

我們從 Gong 身上看到了生產力的提升,它運用了 AI 來幫助 B2B 銷售團隊提高效率和效力。我們在 Osmosis 身上也能看到這一點,它可以幫助廣告代理商生成 AI 廣告。我們在 GitHub Copilot 身上也能看到這一點,它可以將自然語言提示轉化為數十種程式語言的編碼推薦,而且從 2022 年 6 月開始,所有開發者均可用上這款外掛。(在安裝了 Copilot 的專案當中,約 40% 的程式碼是由它生成的,在五年之內這個比例可能會達到 80%。)

2023年的人工智慧:應用層已經到來

GitHub Copilot:你的 AI 結對程式設計師 | GitHub部落格_

人工智慧(尤其是建立在語言模型基礎之上的人工智慧)的早期目標是死記硬背的重複性任務。我認為有一個領域被重塑的時機已經成熟:那就是客戶支援。這些是今天的人工智慧已經可以取得重大進展的領域。更復雜的任務(比如 3D 遊戲創作)在未來會有進一步的發展。但任何涉及人類創作的行業(基本上算是每個行業都要受到波及)都會感受到人工智慧的影響。

我看到有人已經開始拿早期 AI 應用和早期 iPhone 應用做比較。還記得手電筒 app、lightsaber app、lighter app 嗎?還記得《水果忍者》(Fruit Ninja)以及《勁樂團》(Tap Tap Revenge )嗎?我們正處在 app 的早期階段,現在判斷什麼樣的應用是殺手級應用還為時過早。一個迫在眉睫的問題是企業如何才能建立起競爭性護城河;真正的技術差異化將變得很罕見,公司需要找到保持競爭優勢的方法,也許是透過建立網路效應,也許是建立使用者互動與產品改進的迭代迴圈。畢竟,事實證明,2008 年代的手電筒應用並沒有多厚實的護城河。

2023年的人工智慧:應用層已經到來

現在的手電筒應用已經多如牛毛

但正如我們在幾年內就從 lightsaber 應用發展到 Uber ,從《水果忍者》發展到 Instagram 一樣,生態體系也將迅速發展,有生命力、差異化、跨時代的公司也將會出現。

2023年的人工智慧:應用層已經到來

商業模式

軟體即服務是個好東西。可預測的經常性收入。80% 以上的毛利率。理想情況下,淨收入留存率(NDR) >100%,這意味著即便沒有獲得任何新客戶,你的業務也會逐年穩步增長。(140% NDR 意味著在新客戶為零的情況,你的收入仍同比增長 40% ) 。

我的直覺是,很多最好的人工智慧初創企業將是 SaaS 公司。好東西為什麼要改?

比方說,Runway 就是最令人興奮的人工智慧公司之一。Runway 提供了一個由 AI 驅動的創作套件,看過它的產品演示之後你會瞠目結舌的。

從演示影片可以看出,Runway 提供了文字生成影片功能,讓你可以用魔法召喚出一條城市街道,然後快速做出更改(比方說,移除燈柱,或將影片設為黑白)。想象一下你在好萊塢從事特效工作——Runway 可以讓你在幾秒鐘之內新增大爆炸效果,而如果沒有 AI 的話,你得花費大量的時間和金錢來做特效。CBS 就是他們的客戶之一,使用 Runway 之後,他們的晚間秀剪輯時間從 5 小時縮短到了 5 分鐘。New Balance 是另一個客戶,他們在 Runway 上用定製的生成模型來設計下一代運動鞋。

Runway 的定價對於任何 SaaS 愛好者來說都很熟悉:

2023年的人工智慧:應用層已經到來

我們還看到人工智慧公司轉向了其他我們熟悉的商業模式。Midjourney 依賴消費者訂閱。去年 12 月,Lensa 開始風靡全球,其商業模式是免費增值 + 小額支付。50 個一組的自定義頭像花掉了我 8。99 美元。

2023年的人工智慧:應用層已經到來

1/ Lensa的興起可以作為消費者行為的一個有趣的案例研究:Lensa app其實早在 2018 就有了,但在推出四年之後的本週才升至應用商店的第一名。關鍵是Lensa 推出了AI 驅動的“魔法化身”功能。

當然了,Lensa 面臨的挑戰是防禦能力;Lensa 的命脈建立在 Instagram、Twitter 和 TikTok 之上,它得弄清楚如何建立自己的護城河。(同樣的問題對基於基礎模型創立的 SaaS 公司也許同樣適用,就像我們之前在 Jasper 與 ChatGPT 的關係中所看到的那樣。)話雖如此,也許 Lensa 並不太關心護城河——據報道該公司在短短几周內就賺了 4000 到 5000 萬美元,將來會出現許多能賺錢且對開發者很有意義的 AI 應用,它們無需(或可能也不希望)取得風投規模的成果。(編者注:小富即安)

PromptBase 這家富有創意的新公司採用的商業模式我們也很熟悉。PromptBase 是文字生成影象提示的交易市場——這可能是生成式人工智慧的首批交易市場之一。想出正確的提示,從而製作出令人驚歎的 AI 藝術作品是非常困難的。最美的作品往往源自於詳細的提示,而撰寫提示本身就是一門手藝。以下是生成 Stable Diffusion 影象的示例提示:

一座具備遙遠未來主義風格的城市,被籠罩在一個巨大的透明玻璃穹頂下,裡面充斥著高樓大廈,位於一篇片只有大型沙丘的荒蕪沙漠之中,有太陽的光線,Artstation,滿天星的深空掛著一顆閃耀的太陽,大規模,有霧,非常寫實,電影般的,彩色的。

2023年的人工智慧:應用層已經到來

PromptBase 上面交易的是類似這樣冗長、高度具體的提示。到目前為止,該交易市場已有 11000 名使用者。

關於AI 應用商業模式的走向,一個簡短回答是我們可能會看到與上一代技術(及大型企業)相同的商業模式。也會有廣告驅動的社交網路、小額支付驅動的 MMO(大型多人線上遊戲)、按使用的定價模式。交易市場可能(再次)被證明是需要更多資本來擴大規模的業務,但將(再次)體現出強大的網路效應,從而建立起強大的護城河。SaaS 將(再次)證明是最理想的商業模式之一,儘管針對“企業型 SaaS 市場已經十分擁擠”的噪音,AI SaaS 型公司將需要一流的產品來消除大家的疑慮。

2023年的人工智慧:應用層已經到來

最後思考及關鍵問題

一旦某項技術普遍改變了各種商品或服務的生產方式,就會被稱為是“通用技術”。Our World In Data 的團隊認為,人類有兩種主要的通用技術:1)農業革命賦予我們大規模的糧食生產,讓我們從狩獵和採集過渡到農業;2) 工業革命賦予了我們大規模製造的能力。我認為網際網路的出現——也就是數字革命——將標誌著第三次革命的出現。但我也同意他們的觀點,Transformative AI 是下一個通用技術:

這是一個激動人心的時刻。炒得過火了?也許有一點。但這種炒作也會吸引到推動該領域發展的人才;從某些方面來說,炒作有自我實現的成分。

人工智慧不會自己發展。我們需要弄清楚如何與人工智慧共存,並利用它來增強人類的能力。學校正在努力弄清楚如何應付 ChatGPT,有很多學校選擇禁止它的使用。但我同意沃頓商學院教授 Ethan Mollick 的觀點,他認為,“大型語言模型在未來幾年內不會停止發展。我們需要找到一種辦法來適應這些工具,而不僅僅是取締它們。”今天的孩子將生活在一個到處都是人工智慧的世界裡;他們需要了解如何去駕馭那個世界。

當然,還有一些重大的倫理問題需要解決——技術的飛躍往往會在影響深遠與反烏托邦這兩個極端之間徘徊。我們需要弄清楚的問題包括:

誰為人工智慧的錯誤負責?誰是人工智慧作品的創作者?是人工智慧嗎?還是開發者?或者是寫提示的人?抑或是那些自己的作品被用來訓練模型的人?我們如何確定哪些是人造的,哪些是機器製造的?區分這兩者的界線在哪裡?我們如何擺脫 AI 的偏見?創業公司如何才能脫穎而出,並樹立自己的護城河?生態體系的價值在什麼地方積累,價值創造應該如何分配?

人工智慧會成為淨就業創造者還是淨就業破壞者?我們如何對因人工智慧而失業的員工進行再培訓?

要弄清楚的事情還有很多。大規模的技術進步往往會引起大規模的社會不和與爭執,甚至還會導致衝突。這是悲觀的看法。

2023年的人工智慧:應用層已經到來

我輸入的提示:“生活在一個用人工智慧建設的未來社會,賽博朋克風格,高解析度”,Midjourney生成的結果

但我永遠是個技術樂觀主義者,對我來說這是一個激動人心的時刻——只要我們採取正確的保護措施即可。我以前曾引用過 Midjourney 的 David Holz 的這句話,但我喜歡的是它對機會的思考方式:

我們不認為這跟藝術或深度偽造(deepfakes)有關 ,而是跟我們如何擴充套件人類的想象力有關。什麼意思?當計算機的視覺想象力比 99% 的人類都要擅長時,這意味著什麼?這並不意味著我們將停止想象。汽車跑得比人快,但這並不意味著我們就不走路了。當我們需要遠距離運輸大量物品時,我們需要引擎,需要飛機、輪船或者汽車的引擎。我們把這項技術看作是想象力的引擎。所以這是一個非常積極、非常人文主義的東西。

2023年的人工智慧:應用層已經到來

Midjourney對提示“想象力引擎”的詮釋

再用一個令人興奮的想法來結束本文:生成式人工智慧很快就會與其他成熟的技術發生衝突,比如 VR 和 AR。想象一下生成沉浸式三維虛擬世界的文字提示。這可能會在不久之後成為可能。技術發展往往非常迅速:在人的一生(63 年)之內,我們就從萊特兄弟首次實現飛行(1903 年)發展到了將人送上距離地球 384400 公里之遙的月球(1969 年)。而今天出生的人們,他們將目睹人工智慧重塑人類生活、工作和社會的方方面面。

2023年的人工智慧:應用層已經到來

2023年的人工智慧:應用層已經到來

2023年的人工智慧:應用層已經到來

來個“分享、點贊、在看”????

2023的人工智慧