奧推網

選單
文化

不盲追大模型與堆算力!馬毅、曹穎、沈向洋提出理解 AI 的兩個基本原理:簡約性與自一致性

近兩年,“大力(算力)出奇跡”的大模型成為人工智慧領域多數研究者的追求趨勢。然而,其背後巨大的計算成本與資源耗費問題也弊端漸顯,一部分科學家開始對大模型投以嚴肅的目光,並積極尋求解決之道。新的研究表明,要實現 AI 模型的優秀效能,並不一定要依靠堆算力與堆規模。

論文作者 | 馬毅、曹穎、沈向洋

整理 | 西西

編輯 | 陳彩嫻

深度學習火熱十年,不得不說,其機遇與瓶頸在這十年的研究與實踐中已吸引了大量的目光與討論。

其中,瓶頸維度,最引人注意的莫過於深度學習的黑盒子特性(缺乏可解釋性)與“大力出奇跡”(模型引數越來越大,算力需求越來越大,計算成本也越來越高)。此外,還有模型的穩定性不足、安全漏洞等等問題。

而本質上,這些問題部分是由深度神經網路的“開環”系統性質所引起。要破除深度學習的 B 面“魔咒”,單靠擴大模型規模與堆算力或許遠遠不夠,而是要追根溯源,從構成人工智慧系統的基本原理,從一個新的視角(如閉環)理解“智慧”。

7月12日,人工智慧領域的三位知名華人科學家馬毅、曹穎與沈向洋便聯名在arXiv上發表了一篇文章,“On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence”,提出了一個理解深度網路的新框架:壓縮閉環轉錄(compressive closed-loop transcription)。

這個框架包含兩個原理:簡約性(parsimony)與自洽性/自一致性(self-consistency),分別對應 AI 模型學習過程中的“學習什麼”與“如何學習”,被認為是構成人工/自然智慧的兩大基礎,在國內外的人工智慧研究領域引起了廣泛關注。

論文連結:https://arxiv。org/pdf/2207。04630。pdf

三位科學家認為,真正的智慧必須具備兩個特徵,一是可解釋性,二是可計算性。

然而,在過去十年,人工智慧的進步主要基於使用“蠻力”訓練模型的深度學習方法,在這種情況下,雖然 AI 模型也能獲得功能模組來進行感知與決策,但學習到的特徵表示往往是隱式的,難以解釋。

此外,單靠堆算力來訓練模型,也使得 AI 模型的規模不斷增大,計算成本不斷增加,且在落地應用中出現了許多問題,如神經崩潰導致學習到的表徵缺少多樣性,模式崩潰導致訓練缺乏穩定性,模型對適應性和對災難性遺忘的敏感性不佳等等。

三位科學家認為,之所以出現上述問題,是因為當前的深度網路中,用於分類的判別模型和用於取樣或重放的生成模型的訓練在大部分情況下是分開的。

此類模型通常是開環系統,需要透過監督或自監督進行端到端的訓練。

而維納等人早就發現,

這樣的開環系統不能自動糾正預測中的錯誤,也不能適應環境的變化。

因此,他們主張在控制系統中引入“閉環反饋”,讓系統能夠學習自行糾正錯誤。在這次的研究中,他們也發現:

用判別模型和生成模型組成一個完整的閉環系統,系統就可以自主學習(無需外部監督),並且更高效,穩定,適應性也強。

圖注:左右到右分別為沈向洋(港中深校長講席教授,美國國家工程院外籍院士,原微軟全球執行副總裁)、曹穎(美國國家科學院院士,加州大學伯克利分校教授)與馬毅(加州大學伯克利分校教授)。

1

智慧的兩個原理:簡約性與自洽性

在這篇工作中,三位科學家提出瞭解釋人工智慧構成的兩個基本原理,分別是簡約性與自洽性(也稱為“自一致性”),並以視覺影象資料建模為例,從簡約性和自洽性的第一原理推匯出了壓縮閉環轉錄框架。

簡約性

所謂簡約性,就是“學習什麼”。智慧的簡約性原理,

要求系統透過計算有效的方式來獲得緊湊和結構化的表示。

也就是說,智慧系統可以使用任何描述世界的結構化模型,只要它們能夠簡單有效地模擬現實感官資料中的有用結構。系統應該能夠準確有效地評估學習模型的好壞,並且使用的衡量標準是基礎、通用、易於計算和最佳化的。

以視覺資料建模為例,簡約原理試圖找到一個(非線性)變換 f 來實現以下目標:

壓縮:將高維感官資料 x 對映到低維表示 z;

線性化:將分佈在非線性子流形上的每一類物件對映到線性子空間;

劃痕(scarification):將不同的類對映到具有獨立或最大不連貫基礎的子空間。

也就是

將可能位於高維空間中的一系列低維子流形上的真實世界資料分別轉換為獨立的低維線性子空間系列。

這種模型稱為“線性判別表示”(linear discriminative representation,LDR),壓縮過程如圖 2 所示:

圖 2:尋求線性和判別表示,將通常分佈在許多非線性低維子流形上的高維感官資料對映到與子流形具有相同維度的獨立線性子空間集。

在 LDR 模型系列中,存在衡量簡約性的內在度量。也就是說,給定一個 LDR,我們可以計算所有子空間上的所有特徵所跨越的總“體積”以及每個類別的特徵所跨越的“體積”之和。然後,這兩個體積之間的比率給出了一個自然的衡量標準,表明 LDR 模型有多好(往往越大越好)。

根據資訊理論,分佈的體積可以透過其速率失真來衡量。

馬毅團隊在2022年的一個工作“ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction”表明,如果使用高斯的率失真函式並選擇一個通用的深度網路(比如 ResNet)來對對映 f(x, θ) 進行建模,透過最大限度地降低編位元速率。

圖 5:非線性對映 f 的構建塊。圖左:ReduNet 的一層,作為投影梯度上升的一次迭代,它精確地由擴充套件或壓縮線性運算元、非線性 softmax、跳過連線和歸一化組成。圖中和圖右:分別是一層 ResNet 和 ResNeXt。

敏銳的讀者可能已經認識到,這樣的圖表與 ResNet(圖 5 中間)等流行的“久經考驗”的深層網路非常相似,包括 ResNeXt 中的平行列(圖 5 右)和專家混合(MoE)。

從展開最佳化方案的角度來看,這為一類深度神經網路提供了有力的解釋。甚至在現代深度網路興起之前,用於尋求稀疏性的迭代最佳化方案,例如 ISTA 或 FISTA 就已被解釋為可學習的深度網路。

透過實驗,他們證明,

壓縮可以誕生一種有建設性的方式來推導深度神經網路,

包括它的架構和引數,作為一個完全可解釋的白盒:它的層對促進簡約的原理性目標進行迭代和增量最佳化。因此,對於如此獲得的深度網路,ReduNets,從資料 X 作為輸入開始,每一層的運算元和引數都

以完全向前展開的方式構造和初始化。

這與深度學習中的流行做法非常不同:從一個隨機構建和初始化的網路開始,然後透過反向傳播進行全域性調整。

人們普遍認為,由於需要對稱突觸和複雜的反饋形式,大腦不太可能利用反向傳播作為其學習機制。在這裡,前向展開最佳化只依賴於可以硬連線的相鄰層之間的操作,因此更容易實現和利用。

一旦我們意識到

深度網路本身的作用是進行(基於梯度的)迭代最佳化以壓縮、線性化和稀疏化資料,

那麼就很容易理解過去十年人工神經網路的“進化”,尤其有助於解釋為什麼只有少數 AI 系統透過人工選擇過程脫穎而出:從 MLP 到 CNN 到 ResNet 到 Transformer。

相比之下,網路結構的隨機搜尋,例如神經架構搜尋,並沒有產生能夠有效執行一般任務的網路架構。他們猜想,成功的架構在模擬資料壓縮的迭代最佳化方案方面變得越來越有效和靈活。前面提到的 ReduNet 和 ResNet/ResNeXt 之間的相似性可以例證。當然,還有許多其他例子。

自洽性

自洽性是關於“如何學習”,即

自主智慧系統透過最小化被觀察者和再生者之間的內部差異來尋求最自洽的模型來觀察外部世界。

僅憑藉簡約原理並不能確保學習模型能夠捕獲感知外部世界資料中的所有重要資訊。

例如,透過最小化交叉熵將每個類對映到一維“one-hot”向量,可以被視為一種簡約的形式。它可能會學習到一個好的分類器,但學習到的特徵會崩潰為單例,稱為“神經崩潰”。如此學習來的特徵不包含足夠的資訊來重新生成原始資料。即使我們考慮更一般的 LDR 模型類別,單獨的降速目標也不會自動確定環境特徵空間的正確維度。如果特徵空間維度太低,學習到的模型會欠擬合數據;如果太高,模型可能會過擬合。

在他們看來,感知的目標是學習一切可預測的感知內容。

智慧系統應該能夠從壓縮表示中重新生成觀察到的資料的分佈,生成後,無論它盡再大的努力,它自身也無法區分這個分佈。

論文強調,

自洽和簡約這兩個原理是高度互補的,應該始終一起使用。

僅靠自洽不能確保壓縮或效率方面的增益。

在數學和計算上,使用過度引數化的模型擬合任何訓練資料或透過在具有相同維度的域之間建立一對一對映來確保一致性,而不需要學習資料分佈中的內在結構是很容易的。只有透過壓縮,智慧系統才能被迫在高維感知資料中發現內在的低維結構,並以最緊湊的方式在特徵空間中轉換和表示這些結構,以便將來使用。

此外,只有透過壓縮,我們才能容易地理解過度引數化的原因,比如,像 DNN 通常透過數百個通道進行特徵提升,如果其純粹目的是在高維特徵空間中進行壓縮,則不會導致過度擬合:提升有助於減少資料中的非線性,從而使其更容易壓縮和線性化。後續層的作用是執行壓縮(和線性化),通常層數越多,壓縮效果越好。

在壓縮到諸如 LDR 之類的結構化表示的特殊情況下,論文將一類自動編碼(具體見原論文)稱為“轉錄”(transcription)。這裡的難點在於如何使目標在計算上易於處理,從而在物理上可以實現。

速率降低 ΔR 給出了退化分佈之間的明確首要距離度量。但它僅適用於子空間或高斯的混合,而不適用於一般分佈!而我們只能期望內部結構化表示 z 的分佈是子空間或高斯的混合,而不是原始資料 x。

這導致了一個關於學習“自洽”表示的相當深刻的問題:為了驗證外部世界的內部模型是否正確,自主系統真的需要測量資料空間中的差異嗎?

答案是否定的。

關鍵是要意識到,要比較 x 和 x^,智慧體只需要透過相同的對映 f 比較它們各自的內部特徵 z = f(x) 和 z^ = f(x^),來使 z 緊湊和結構化。

測量 z 空間中的分佈差異實際上是定義明確且有效的:可以說,在自然智慧中,學習內部測量差異是有獨立自主系統的大腦唯一可以做的事情。

這有效地生成了一個“閉環”反饋系統,整個過程如圖 6 所示。

圖 6:非線性資料子流形到 LDR 的壓縮閉環轉錄(透過在內部比較和最小化 z 和 z^ 的差異)。這導致了編碼器/感測器 f 和解碼器/控制器 g 之間的自然追逃博弈,使解碼的 x^(藍色虛線)的分佈追逐並匹配觀察到的資料 x(黑色實線)的分佈。

人們可以將單獨學習 DNN 分類器 f 或生成器 g 的流行做法解釋為學習閉環系統的開放式部分(圖 6)。這種目前流行的做法與開環控制非常相似,控制領域早已知道它存在問題且成本高昂:

訓練這樣的部分需要對期望的輸出(如類標籤)進行監督;如果資料分佈、系統引數或任務發生變化,這種開環系統的部署本質上是缺少穩定性、魯棒性或自適應性的。

例如,在有監督的環境中訓練的深度分類網路,如果重新訓練來處理具有新資料類別的新任務,通常會出現災難性的遺忘。

相比之下,閉環系統本質上更加穩定和自適應。事實上,Hinton 等人在1995年就已經提出了這一點。判別和生成部分需要分別作為完整學習過程的“喚醒”和“睡眠”階段結合起來。

然而,僅僅閉環是不夠的。

論文主張

任何智慧體都需要一種內部博弈機制,

以便能夠透過自我批評進行自我學習!這當中遵循的是博弈作為一種普遍有效的學習方式的概念:反覆應用當前模型或策略來對抗對抗性批評,從而根據透過閉環收到的反饋不斷改進模型或策略!

在這樣的框架內,編碼器 f 承擔雙重角色:除了透過最大化速率降低 ΔR(Z) 來學習資料 x 的表示 z(如 2。1 節中所做的那樣),它還應該作為反饋“感測器”,主動檢測資料 x 和生成的 x^ 之間的差異。解碼器 g 也承擔雙重角色:它是控制器,與 f 所檢測到的 x 和 xˆ 之間的差異聯絡起來;同時又是解碼器,嘗試將整體的編位元速率最小化來實現目標(讓步於給定的準確度)。

因此,最優的“簡約”和“自洽”表示元組 (z, f, g) 可以解釋為 f(θ) 和 g(η) 之間的零和博弈的平衡點,而不是基於組合速率降低的效用:

以上討論是兩個原理在有監督情況下的表現。

但論文強調,他們所提出的壓縮閉環轉錄框架能夠透過自我監督和自我批評來進行自我學習!

此外,由於速率降低已經為學習結構找到顯式(子空間型別)表示,使得過去的知識在學習新任務/資料時更容易保留,可以作為保持自一致性的先驗(記憶) 。

最近的實證研究表明,這可以

產生第一個具有固定記憶體的自包含神經系統,

可以在不遭受災難性遺忘的情況下逐步學習良好的 LDR 表示。對於這樣一個閉環系統,遺忘(如果有的話)是相當優雅的。

此外,

當再次將舊類別的影象提供給系統進行審查時,可以進一步鞏固學習到的表示

——這一特徵與人類記憶的特徵非常相似。從某種意義上說,

這種受約束的閉環公式基本上確保了視覺記憶的形成可以是貝葉斯和自適應的

——假設這些特徵對大腦來說是理想的話。

如圖 8 所示,如此學習的自動編碼不僅表現出良好的樣本一致性,而且學習到的特徵還表現出清晰且有意義的區域性低維(薄)結構。

圖 8:圖左:在 CIFAR-10 資料集(有 10 個類別的 50,000 張影象)的無監督設定中學習的自動編碼的 x 與相應解碼的 x^ 之間的比較。圖右:10 個類別的無監督學習特徵的 t-SNE,以及幾個鄰域及其相關影象的視覺化。注意視覺化特徵中的區域性薄(接近一維)結構,從數百維的特徵空間投影。

更令人驚訝的是,即使在訓練期間沒有提供任何類資訊,子空間或特徵相關的塊對角結構也開始出現在為類學習的特徵中(圖 9)!因此,所學特徵的結構類似於在靈長類動物大腦中觀察到的類別選擇區域。

圖 9:透過閉環轉錄,屬於 10 個類別 (CIFAR-10) 的 50,000 張影象的無監督學習特徵之間的相關性。與類一致的塊對角結構在沒有任何監督的情況下出現。

2

通用學習引擎:3D 視覺與圖形結合

論文總結,簡約性和自洽性揭示了深度網路的角色是成為外部觀察和內部表徵之間非線性對映的模型。

此外,論文強調,閉環壓縮結構在自然界中無處不在,適用於所有智慧生物,這一點可以見於大腦(壓縮感覺資訊)、脊髓迴路(壓縮肌肉運動)、DNA(壓縮蛋白質的功能資訊)等等生物示例。因此,他們認為,

壓縮閉環轉錄可能是所有智慧行為背後的通用學習引擎。

它使智慧生物和系統能夠從看似複雜和無組織的輸入中發現和提煉低維結構,並將它們轉換為緊湊和有組織的內部結構,以便記憶和利用。

為了說明這個框架的通用性,論文研究了另外兩個任務:3D 感知和決策(LeCun 認為這是自主智慧系統的兩個關鍵模組)。本文整理,僅介紹 3D 感知中計算機視覺與計算機圖形學的閉環。

David Marr 在其頗具影響力的著作《視覺》一書中提出的 3D 視覺經典範式提倡“分而治之”的方法,將 3D 感知任務劃分為幾個模組化過程:從低階 2D 處理(如邊緣檢測、輪廓草圖)、中級 2。5D 解析(如分組、分割、圖形和地面),以及高階 3D 重建(如姿勢、形狀)和識別(如物件),而相反,壓縮閉環轉錄框架提倡“聯合構建”思想。

感知是壓縮閉環轉錄?更準確地說,世界上物體的形狀、外觀甚至動態的 3D 表示應該是我們的大腦內部開發的最緊湊和結構化的表示,以相應地解釋所有感知到的視覺觀察。如果是這樣,那麼這兩個原理表明

緊湊和結構化的 3D 表示就是要尋找的內部模型。這意味著我們可以並且應該在一個閉環計算框架內統一計算機視覺和計算機圖形,

如下圖所示:

圖10:計算機視覺和圖形之間的閉環關係,用於視覺輸入的緊湊和結構化 3D 模型

計算機視覺通常被解釋為為所有 2D 視覺輸入重建和識別內部 3D 模型的前向過程,而計算機圖形學表示其對內部 3D 模型進行渲染和動畫處理的逆過程。將這兩個過程直接組合成一個閉環系統可能會帶來巨大的計算和實踐好處:幾何形狀、視覺外觀和動力學中的所有豐富結構(例如稀疏性和平滑度)可以一起用於統一的 3D 模型, 最緊湊,且與所有視覺輸入一致。

計算機視覺中的識別技術可以幫助計算機圖形學在形狀和外觀空間中構建緊湊模型,併為建立逼真的 3D 內容提供新的方法。另一方面,計算機圖形學中的 3D 建模和模擬技術可以預測、學習和驗證計算機視覺演算法分析的真實物件和場景的屬性和行為

。視覺和圖形社群長期以來一直在實踐“綜合分析”的方法。

外觀和形狀的統一表示?基於影象的渲染,其中,

透過從一組給定影象中學習來生成新檢視,可以被視為早期嘗試用簡約和自洽的原理縮小視覺和圖形之間的差距。

特別是,全光采樣表明,可以用所需的最少影象數量(簡約性)來實現抗鋸齒影象(自洽性)。

3

更廣泛的智慧

智慧的神經科學

人們會期望基本的智慧原理對大腦的設計產生重大影響。簡約和自洽原理為靈長類視覺系統的幾個實驗觀察提供了新的思路。更重要的是,它們揭示了未來實驗中要尋找的目標。

作者團隊已經證明,

僅尋求內部簡約和預測性表示就足以實現“自監督”,允許結構自動出現在透過壓縮閉環轉錄學習的最終表示中。

例如,圖 9 顯示無監督資料轉錄學習自動區分不同類別的特徵,為在大腦中觀察到的類別選擇性表示提供瞭解釋。這些特徵也為靈長類大腦中稀疏編碼和子空間編碼的廣泛觀察提供了合理的解釋。此外,除了視覺資料建模,

最近的神經科學研究表明,大腦中出現的其他結構化表示(例如“位置細胞”)也可能是以最壓縮的方式編碼空間資訊的結果。

可以說,

最大編位元速率降低 (MCR2) 原理在精神上類似於認知科學中的“自由能最小化原理”

(free energy minimization principle),後者試圖透過能量最小化為貝葉斯推理提供框架。但與自由能的一般概念不同,速率降低在計算上易於處理且可直接最佳化,因為它可以以封閉的形式表示。此外,這兩個原理的相互作用表明,

正確模型(類)的自主學習應該透過對這種效用的閉環最大化博弈來完成,而不是單獨進行最小化。

因此,他們相信,

壓縮閉環轉錄框架為如何實際實施貝葉斯推理提供了一個新的視角。

這個框架也被他們認為闡明瞭大腦使用的整體學習架構,

可以透過展開最佳化方案來構建前饋段,且不需要透過反向傳播從隨機網路中學習。

此外,框架存在一個互補的生成部分,可以形成一個閉環反饋系統來指導學習。

最後,框架揭示了許多對“預測編碼”大腦機制感興趣的神經科學家所尋求的難以捉摸的“預測錯誤”訊號,這是一種與壓縮閉環轉錄產生共振的計算方案:

為了讓計算更容易,應在表示的最後階段測量傳入和生成的觀測值之間的差異。

邁向更高層次的智慧

馬毅等人的工作認為,壓縮閉環轉錄與Hinton等人在1995年提出的框架相比,在計算上更易於處理和可擴充套件。而且,迴圈的學習非線性編碼/解碼對映(通常表現為深度網路),本質上在外部無組織的原始感官資料(如視覺、聽覺等)和內部緊湊和結構化表示之間提供了一個重要的“介面”。

不過,他們也指出,這

兩個原理並不一定能解釋智慧的所有方面。

高階語義、符號或邏輯推理的出現和發展背後的計算機制仍然難以捉摸。直到今天,關於這種高階符號智慧是可以從持續學習中產生還是必須進行硬編碼,仍然存在爭議。

在三位科學家看來,諸如子空間之類的結構化內部表示是高階語義或符號概念出現的必要中間步驟——每個子空間對應一個離散的(物件)類別。如此抽象的離散概念之間的其他統計、因果或邏輯關係可以進一步簡化建模為緊湊和結構化(比如稀疏)圖,每個節點代表一個子空間/類別。可以透過自動編碼來學習圖形以確保自一致性。

他們推測,

只有在個體智慧體學習的緊湊和結構化表示之上,高階智慧(具有可共享的符號知識)的出現和發展才有可能。

因此,他們建議,應該透過智慧系統之間有效的資訊交流或知識遷移來探索高階智慧出現的新原理(如果高階智慧存在的話)。

此外,更高級別的智慧應該與我們在本文中提出的兩個原理有兩個共同點:

可解釋性:所有原理都應該有助於將智慧的計算機制揭示為白盒,包括可測量的目標、相關的計算架構和學習表示的結構。

可計算性:任何新的智慧原理都必須在計算上易於處理和可擴充套件,可以透過計算機或自然物理實現,並最終得到科學證據的證實。

只有具備可解釋和可計算性,我們才能無需依賴當前昂貴且耗時的“試錯”方法來推進人工智慧的進步,能夠描述完成這些任務所需的最少資料和計算資源,而不是簡單地提倡“越大越好”的蠻力方法。智慧不應該是最足智多謀的人的特權,在一套正確的原則下,任何人都應該能夠設計和構建下一代智慧系統,無論大小,其自主性、能力和效率最終都可以模仿甚至超過動物和人類。

論文連結:https://arxiv.org/pdf/2207.04630.pdf

雷峰網