奧推網

選單
科技

特斯拉AI大牛離職,給自動駕駛投下一枚深水炸彈

原文標題:《事故頻出,陷入困境的自動駕駛,新的出路到底在哪裡?》,題圖來自:視覺中國

自動駕駛行業,因為一個人的離職,要被改變了。

他是Andrej Karpathy,作為特斯拉AI大主管,在7月13日宣佈自己從特斯拉離職。

作為AI的負責人,他五年前加入特斯拉,擔任神經網路和計算機視覺專家。五年時間內迅速晉升,成為特斯拉Autopilot團隊的重要一員,在特斯拉開發FSD的過程中也發揮了非常重要的作用。

有多重要?我可以說,Andrej從特斯拉離職的真正原因,會決定自動駕駛行業技術接下來的發展方向。

為什麼一個人僅僅離職就能對行業有影響?

因為Andrej在特斯拉工作期間,並沒有讓特斯拉跟隨著行業內捲起的鐳射雷達上車熱潮,

而是為自動駕駛行業踏出了一個全新、純視覺實現自動駕駛的方向。

實現純視覺自動駕駛不難,難的是讓這項技術真正可以在城市開放街道上實現。

馬斯克一直以來都堅信純視覺自動駕駛,因為在這位矽谷鋼鐵俠看來既然人可以透過兩隻眼睛來駕駛車輛,那麼機器一定也可以。他還曾經表示馬就是自動駕駛,而人和馬的眼睛裡,並不會射出鐳射。

Andrej在特斯拉成功證明純視覺自動駕駛這條技術路線是可行的,意義並不是幫特斯拉的量產車省下了兩顆或幾顆鐳射雷達的成本,

而是在眾多自動駕駛發展路線中,成功證明了從L2發展到L5的可能性。

和以往透過攝像頭抓取的2D影象進行識別交通參與物件不同——在Andrej為特斯拉開發的新版FSD中,特斯拉透過佈置在車周身的8個攝像頭,將獲取到的8個方向的二維平面圖像資料透過演算法即時生成了車身周邊

“4D向量空間”

“4D向量空間”是什麼?

本質上講是在生成的

虛擬三維空間基礎上再增加一個時間軸

,這樣就可以根據其他車輛的過去行為來預測標記物體在未來時間的運動。

透過Andrej的這套處理方案,讓機器幫人類駕駛汽車這件任務,從一個識別平面圖並做預測圖片中物體會怎麼變化的工作,變成了一個怎麼在三維空間中規劃行駛路線的“遊戲”。

更厲害的是,從特斯拉官方釋放的資訊來看,這個為FSD設計的“遊戲”內,

事物、場景的精度會精確到畫素級,

也就意味著理論上它的精度甚至可以追趕上高精地圖——足夠精細的3D空間,也意味著對於特斯拉來說確實不需要鐳射雷達了。

行業裡所追求的鐳射雷達,到了特斯拉手上,作用就只是裝在部分測試車上去做3D生成場景的“校準”——透過鐳射雷達的資料和車自己生成3D場景資料的對比,來加強這一套從二維平面換算到三維空間的演算法的精準度。

在自動駕駛最重要的兩個核心技術:感知和決策上,Andrej僅僅依靠純視覺的方式,就讓特斯拉的自動駕駛在感知方面的精度提高了幾十倍甚至上百倍。

感知精度上的提升,反過來也會幫助車進行更快、更準確的決策。

比如搭載了兩顆前向鐳射雷達的小鵬P5,對前方的物體的感知能力,就比沒有搭載鐳射雷達的P7車型要強很多,這讓P5在涉及到前方的交通場景中可以比P7更快速、果斷做出決策,但對於鐳射雷達檢測不到的側後方,P5的感知能力就和P7保持在同一水平,決策方面也就和P7一致,無法做到比P7更準確、果斷。

Andrej賦予了特斯拉用視覺比拼鐳射雷達的能力後,也就意味著感知不再是短板的特斯拉,理論上可以逐漸追上Waymo、Cruise、Argo AI、百度Apollo這些用了鐳射雷達的廠商所達到的無人駕駛水平。

感知的能力獲得巨大提升後,在決策方面特斯拉同樣有所創新。

這個創新要從自動駕駛行業存在的一個大問題講起:在AI決策方面,隨著訓練里程數的增加,遇到問題場景的數量也在大幅度降低。

表面上看這似乎意味著自動駕駛AI能夠迅速進步,但隨著簡單高頻的場景逐個被解決,

待解決的低頻場景成為了抵達終點前的絆腳石

——從幾百公里遇到一個問題變成幾千甚至幾萬公里才遇到一個問題時,意味著訓練AI到我們所需要水平的時間、里程會以

指數級增長,而這一過程沒有盡頭。

這就是為什麼行業裡每年都在說距離全自動駕駛的美好場景還有五年,但我們一直無法實現的原因。

要解決這個問題,就必須有更多的“問題場景”來提供給自動駕駛AI訓練。

對於這個問題,特斯拉以訓練自動駕駛AI的需求為基礎,開發了名為Dojo的超級計算機,在Dojo中,一方面會用autopilot現實中遇到的困難場景的4D向量空間資料生成虛擬的世界,讓Autopilot在這裡面反反覆覆訓練,另一方面特斯拉也會自己製造更多的複雜、罕見場景用於自動駕駛AI訓練。

特斯拉的AI訓練模式,從發現問題——解決問題,

就變成了自己製造問題——解決問題,

毫無疑問,這樣對於Autopilot而言不必等現實世界中低頻次問題的發生,而是隻需要讓特斯拉的工程師不斷在虛擬世界中建立問題就可以了。

“問題場景”出現頻次會隨著訓練而降低,從而導致AI訓練效率斷崖式下跌的問題被解決後,特斯拉打造的感知+決策+練系統已經實現了完整的閉環,目前使用完全自動駕駛

(FSD)

Beta的客戶車隊已經行駛了超3500萬英里的里程,並且這個速度正在加快。

接下來Andrej Karpathy要面對的問題就簡單了:

由AI生成的場景能否把特斯拉的自動駕駛訓練到L5級別?

如果能,那麼一切交給AI自主訓練就好,Andrej不需要做什麼了。

如果不能,以馬斯克的性格來看, Andrej需要把AI開發工作交給下一個有能力的人。

——從這個角度來看,

無論結果如何,Andrej都似乎沒有必要留在特斯拉了。

雖然對於Andrej來說他成功把自動駕駛推向了新的高度,但對於整個自動駕駛行業而言,Andrej的離職無異於一個威力巨大的深水炸彈,

如今整個自動駕駛行業都陷入到巨大的不確定性中:

如果特斯拉的純視覺方案可行,那麼國內外其他公司就沒有必要在純視覺的技術路線上追趕特斯拉了——使用者量、資料量差的太遠,它們只能尋找其他可行的方案追趕特斯拉。

如果特斯拉的純視覺方案由於不知名的問題受阻,那麼意味著整個自動駕駛行業會面臨一個巨大的困境——自動駕駛的落地將會遙遙無期,資本的耐心也會一點一點損失殆盡。

不管特斯拉能否成功,自動駕駛行業都需要尋找新的出路。

自動駕駛的出路可能在哪裡?

馬斯克已經給我們做了極好的示範:當一個行業/領域遇到困難時,可以嘗試從第一性原理出發思考可能的解決方法,比如方才提到的FSD新方案,就是馬斯克基於第一性原理得出的答案:全世界的道路,是為人類駕駛設計的,開車的是人而不是機器。

很顯然馬斯克對自動駕駛一貫堅持的觀點是人可以透過兩隻眼睛來駕駛車輛,那麼機器一定也可以,這才有了依靠純視覺方案依然能吊打用了一堆用雷達方案友商的特斯拉。

目前自動駕駛似乎花樣繁多,但本質上需要解決前面提到過的兩件事:感知和決策。

對於感知而言,機器遇到的最大困難並不是對周圍環境識別的精準程度,

而是如何才能讓機器理解它感知到的畫面。

目前主流的方案是簡單粗暴給不同物體打上標籤,然後再讓AI去訓練。

這種方式很明顯只是表層模仿了人類的學習方式,這就導致了AI只能依據圖形的相似情況來判斷物體的種類,然而同一種物體的模樣有千千萬萬,再結合場景的變化,AI即便訓練很長時間,也很難做到100%完全識別。

從更深一層去感知物體的,是用語義地圖的方式。

從人類角度而言,我們通常會對整個影象進行理解,也就是利用上下文資訊

(context)

對整個場景進行建模,構成了一個場景模型後再進行相應的處理

(碰撞預警、自動巡航等)

語義識別是

透過一個整體去理解區域性

,在以前傳統的識別車輛,車位線框這些元素的基礎上,再增加諸如牆壁接地線、柱子、行人、懸空物的識別就要比用傳統的演算法容易得多。

例如小鵬的VPA停車場記憶泊車功能就採用了這個方案。原因是地下停車場中各種設施和管路會嚴重干擾毫米波雷達的執行,所以在地下停車場中小鵬就不得不採取了近乎純視覺方案的自動駕駛。

但語義地圖仍然是侷限在了畫面分割後再識別的模式上,AI並不具備“聯想”能力。

——同樣一個錐桶,僅僅是轉換一個拍攝角度,或微調一些肉眼無法觀察的畫素點,人工智慧很有可能就識別失敗,但人類的兒童,卻只需要一張看圖識字的卡片,便能輕易分辨出在路邊的錐桶和人類手拿的錐桶都是同一個東西,但它們代表了不同的含義。

從最本質出發,自動駕駛要想達到L5級別,得先具備和兒童識別物體一樣的能力。也就是說,

人工智慧模型應該可以從 M 個樣本中學習到 N 個類別,其中 N 可以遠遠大於 M。

人類兒童具備這項能力,本質上是從出生一刻開始就在不斷的訓練、學習,學習的過程中,不僅僅包括了對各種事物的辨認,還包括了語言的學習——事實上,全世界各地不同人類的思考方式會根據他

(她)

所掌握的語言而不同而有不同的思考模式。

那麼對於自動駕駛的AI而言,我們可能還需要賦予AI一種“語言”來替代現有的標籤去讓AI在進行深度學習的同時,還兼顧學習了這門“用於描述交通的語言”,一旦AI可以用這門語言將物體一一對應起來,並自己總結出交通規則時,AI或許也能具備融會貫通分辨物體的能力。

事實上在AI領域經常提到的“神經網路”,本質上就是模仿了人類大腦中的神經元和突觸的作用,因此按照第一性原理來看,讓AI真正掌握人類的某個語言還很困難,

但讓AI去真正學會一套“專門用於交通的語言”是可行的。

感知部分講明白後,決策部分同時也可以直接得到答案。

對於決策而言,機器遇到的最大困難是

如何合理、相對準確預測參與交通所有物件想做什麼,並讓自己參與到其中

——特斯拉的做法是不但車有自己的行駛規劃

(plan)

,也會給路面上每一個參與交通的物體賦予一個行駛規劃,然後結合計算後,會讓車選擇風險最低的規劃結果。

這跟人類的思維模式很像了,但不同之處在於,目前主流的解決方案更多的是按照物體的屬性結合行動規律做出的預測,而如果我們可以讓AI真正學會一門“交通語言”,那麼理論上就可以讓AI同時學會道路交通中其他參與者的“思考模式”,例如兩輪電瓶車往往會更靈活且遇到障礙物時大多不會看後方是否有來車,反而選擇直接繞行。這時候一個“通曉多種交通工具”的AI,就可以更快地做出更正確的駕駛決策。

但這麼做的困難在於

其他交通工具,甚至人類本身目前並沒有相同級別的“自動駕駛”方案。

目前從整個行業來看,看上去指望一家企業去為每一個交通參與物件都建立一套自動駕駛AI並把它們融合起來非常不現實,但其實還是有可能做到的:如果能用

數字孿生

(digital twin)

技術建立一個更加真實的虛擬世界,讓多種交通工具,包括行人本身一起在這個世界中進行訓練,最終一定可以得到一個在決策方面更強的自動駕駛AI。

雖然前面我們一直在說因為Andrej Karpathy從特斯拉的離職造成的蝴蝶效應,可能會導致自動駕駛行業需要尋找新的出路,也分析了未來技術可能的發展方向。

但對於整個行業而言,就像人類出生後要先學會爬,然後才是走,最後才是奔跑一樣,現在要想直接在社會道路上實現自動駕駛對AI來說仍然過於複雜了。所以一部分車企選擇了在商業園區、礦山這樣環境相對簡單的地區嘗試落地自動駕駛。

但嘗試一段時間後,無論是園區還是礦山,都出現了意想不到的問題。

園區面臨的問題是

“走不出去”

:如今在園區自動行駛的車大都是低速自動駕駛,對於快遞車而言還需要為其規劃專門的停車位,以目前的自動駕駛水平來說,它們很難直接投放到社會上去。

經常被大眾認為是最容易規模商業化的自動駕駛場景之一的礦山場景,雖然不受道路法規限制,也不存在“走出去”的問題,但存在很多普通大眾完全想不到的現實問題:

保證5G訊號覆蓋帶來的網路成本、露天礦的生產方式要不停的移動裝置位置、工程車的智慧化、多種機械裝置的混編問題、環境粉塵會影響自動駕駛感知的問題……多如牛毛的問題導致自動駕駛並未能在這個領域落地開花。

雖然這些嘗試讓自動駕駛落地的嘗試都沒有真正成功,

但這些落地方式都有一個值得稱讚的共同點,那就是“從場景出發”。

“場景”是一個使用頻率很高,但在汽車行業內卻是剛剛開始應用起來的詞。

傳統汽車確定產品配置的時候,一般是從每一個配置對應一個特定功能,再到對應使用者的某一個需求出發來定製產品配置的方式。這種方式在汽車市場上體現的是以部分配置和競品形成差異化的打法,這種打法過去很好用,但在“自動駕駛”這項功能上就失效了。

一方面是要實現自動駕駛所需的配置方案多種多樣,另一方面是除了硬體到位,軟體上的開發也必不可少,

這就導致了在配置表“Feature list”上“智慧輔助駕駛”雖然只有寥寥幾項,但它涉及的人力物力並不比造一臺新車少。

——“自動駕駛”可以包含很多的功能應用,而要實現這些功能的應用,主要取決於使用者使用的場景。如果我們能把使用者的場景儘可能的拆解、細分之後,

就可以先針對某一些場景去開發對使用者 “真正有用”的自動駕駛功能,

比如可以在使用者不舒服的時候讓AI接管,在川流不息的道路上找到合適的機會停車靠邊打雙閃這樣的功能就很實用。

這樣做不但可以在相對短的時間內先把自動駕駛這個產品真正落地,從整個市場競爭的角度來看,有了好用的功能,產品的定位也會更清晰。

目前市面上已經有不少車企正在做

基於細分場景的自動駕駛

開發了,但都主要集中在了跑高速、自動泊車這兩個場景上

(也還不夠好)

整體上使用者仍然有很多的真實需求並沒有滿足:

先做地庫全自動行車、泊車場景

(有-小鵬汽車、威馬汽車)

先做停車場召喚場景

(有-特斯拉)

先做應急停車場景

(無)

先做高速場景

(有-小鵬汽車、蔚來汽車、理想汽車、特斯拉)

先做擁堵跟車場景

(無)

先做使用者需要臨時分神的輔助場景

(無)

所以從比礦山、物流更細分、更細微的場景出發,是自動駕駛落地的一個方向。

雖然我們還不知道Andrej Karpathy接下來會去哪裡,但毫無疑問的是,除了特斯拉之外的其他廠商,

需要努力為它們的技術路線尋找到新的落地方向。

在這眾多的方向選擇中,為自動駕駛AI開發一套專用的語言幫助它們理解世界,並用數字孿生

(digital twin)

的方式去讓他們學習到所有交通工具甚至人類的行動邏輯,這或許是自動駕駛能真正開始落地的道路。