豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
這段時間,關於“AI未來往哪走的”討論,可以說是越來越激烈了。
先是Meta被曝AI相關部門大重組,又有谷歌AI是否具備人格大討論,幾乎每一次討論都能看到Yann LeCun的身影。
現在,LeCun終於坐不住了。
他用一篇長達62頁的最新論文,詳細介紹了他未來十年要做什麼樣的AI研究:
自主機器智慧
(Autonomous Machine Intelligence)
。
LeCun表示,在大數從業者都不會提前將自己的研究內容公佈出來的“學術風氣”下,他這一舉動可以說是很特別了。
究其原因,除了發揚開放的科學研究精神,也是為了號召更多人一起加入其中,一起研究。
那麼,他說的這個自主人工智慧,究竟是什麼,又要如何開展?
可以模擬世界運作的AI
在論文中,LeCun先是舉了一個例子:
一個年輕人可以最快在20小時內就學會開車;
一個當今世界最優秀的自動駕駛系統,卻要用到數百萬甚至數十億條帶標籤的訓練資料,並在虛擬環境中進行數百萬次強化學習才能得出——還完全達不到人類的水平。
從這個例子我們可以得出,儘管我們在人工智慧方面的研究取得了不少進展,但
離創造出一個能真正像人類一樣思考和學習的AI還差得遠
。
LeCun所提出的自主人工智慧就是要解決這個問題。
在他看來,對“世界模型”
(世界如何運作的內部模型)
進行學習的能力可能是關鍵。
眾所周知,人類和其他動物總是能透過觀察和少量互動,就能以無監督的方式學習到
大量
關於世間萬物如何運轉的背景知識。
這些知識就是我們所說的常識,而常識就是構成“世界模型”的基礎。
有了常識,我們在不熟悉的場景下也能開展行動。比如開頭那位從來沒有開過車的年輕人,碰到雪地,不用教也知道這樣的路很滑得慢慢開。
此外,常識還可以幫我們填補資訊在時間和空間上的缺失。比如一名司機聽到了金屬等物質的碰撞聲,即使沒有看到現場,也能知道那可能是有車禍發生。
在這些概念之上,LeCun提出了構建自主人工智慧的第一個挑戰:
如何設計一個學習正規化和體系架構,讓機器能夠以自監督學習
(也就是不需要標註資料)
的方式學習“世界模型”,然後用這個模型去進行預測、推理和行動。
在這裡,他重新組合了認知科學、系統神經科學、最優控制、強化學習和“傳統”人工智慧等各個學科中提出的想法,並將它們與機器學習中的新概念相結合,提出了一個
由六個獨立模組組成的自主智慧架構
。
其中,每個模組都是可微的,每一個都可以很容易地計算某個目標函式相對於自己的輸入的梯度估計,並將梯度資訊傳播到上游模組。
六模組自主智慧架構
LeCun設想的六個模組分別為:
1、配置模組:負責執行控制。給定要執行的任務,它可以透過調節其他模組的引數,為任務預先配置感知模組、世界模組等其他三個模組的值。
2、感知模組:負責接收來自感測器的訊號並估計世界的當前狀態。
3、世界模型模組:是這個架構中最複雜的一部分。有兩個作用:
(1)估計感知模組無法提供的關於世界狀態缺失的資訊;
(2)預測未來可能的狀態。由於世界充滿了不確定性,該模組必須能夠涵蓋出多種可能的預測。
4、成本模組:用來計算標量
(scalar)
的輸出,它可以預測智慧體的不適程度
(discomfort of the agent,智慧體受到的損害、違反硬編碼的行為約束等)
。
該模組又有兩個子模組:
(1)內在成本模組
(cost)
,用來即時計算“不適感”;
(2)評判家
(critic)
:預測內在成本模組的未來值。
5、行動模組:用來計算要實現的動作序列。行動模組可以找到一個使未來成本模組最小化的最優動作序列,並以類似於經典最優控制的方式,以最優序列輸出第一個動作。
6、短期記憶體模組:跟蹤當前和預測的世界狀態以及相關成本。
其中,對於這個架構的核心——世界模組,最關鍵的挑戰是如何使其能夠表示出多個合理的預測。
此外,它在學習世界的抽象表示時,還要學會忽略不相關的資訊,只保留最有用的細節。
比如在開車時,只需要預測駕駛員周圍的汽車會做什麼,不需要預測道路兩旁樹木中每片葉子的詳細位置。
對此,LeCun也給了一個可能的解決方案:
聯合嵌入預測架構
(JEPA)
,用它來處理預測中的不確定性。
同時,他還提出用非對比自監督學習對JEPA進行訓練,以及從不同時間尺度上進行預測的分級JEPA,它可以將複雜任務拆解為一系列不那麼抽象的子任務。
AI待解決的問題還有很多
LeCun表示,對於未來幾十年來說,訓練出來這樣一個世界模型是人工智慧要取得突破性進展必須面對的最大挑戰。
目前來看,要想實現上面這個架構,還有很多方面都有待定義:比如如何精確地訓練critic、如何構造和訓練配置器、以及如何使用短期記憶體跟蹤世界狀態,並存儲世界狀態、動作和相關內在成本的歷史來調整critic……
除此之外,LeCun也在論文中指出,對於未來的自主人工智慧研究:
(1)擴大模型規模有必要,但不夠;
(2)獎勵機制也不夠,基於觀察的自監督學習才是更有效的方式;
(3)推理
(reason)
和計劃
(plan)
實質上都歸結於推斷
(inference)
:找到一系列動作和潛在變數,以最小化
(可微)
目標。這也是使推理與基於梯度的學習能夠相容的辦法。
(4)在以上這種情況下,可能就不需要明確的符號操作機制了。
更多細節可以檢視論文原文:
https://openreview。net/forum?id=BZ5a1r-kVsf
參考連結:
[1]https://twitter。com/ylecun/status/1541492391982555138
[2]https://ai。facebook。com/blog/yann-lecun-advances-in-ai-research/
— 完 —
量子位 QbitAI · 頭條號簽約