奧推網

選單
遊戲

新型類腦神經網路僅憑極少樣本就成功攻破驗證碼!

(《麻省理工科技評論》中英文版APP現已上線,年度訂閱使用者每週直播科技英語講堂,還有科技英語學習社群哦~)

毫無疑問,用於影象識別的計算機演算法,尤其是針對特定動物,或者人類面部的識別方面已經取得了長足的進步,軟體可以自動為大規模影象庫進行歸類。但現在,關於影象識別的研究已經到達了一個瓶頸期,接下去要做的事情,目前看來計算機可能還無法勝任。

實際上,一旦把影象本身放到具體環境中,由於發生了變形、遮擋或者反光等,現在的演算法就無法將它準確識別出來。舉個例子,在使用 Google 搜尋時,很多人可能遇到過一種人機身份驗證方式:在下列圖片中選出含有交通標誌的那些,如下圖所示:

圖丨Google 常用的人機身份驗證方式

然而,現有的演算法一般化的能力太弱,遇到這類情況時識別效果非常有限,比如熟悉的影象發生變形,或掩藏在大量噪聲中。當然,同類型的人機身份驗證碼也包括對文字的扭曲變形,是人還是機器,高下立判。

好了,如果你現在還依舊認為上述的人機身份驗證碼(CAPTCHA)能完美區分人類和機器,下面提到的技術可能會讓你失望了。在《Science》最新刊出的一篇論文中,一家位於灣區、名為 Vicarious 的AI初創公司,描述了一種由他們發明的全新演算法,演算法在經過極少量的訓練之後,能輕而易舉的搞定文字類人機身份驗證,當然,一般的文字識別任務也完全不在話下。

圖丨Vicarious 在《Science》上發表論文,宣稱用視覺模型破解驗證碼

堅信計算機也能擁有想象力是 Vicarious 公司創始人們的動力。而在這個神秘的人工智慧公司背後,提供支援的是矽谷最著名的成功人士們。公司的早期投資者包括 Facebook 前CTO Dustin Moskovitz、Quora 聯合創始人 Adam D’Angelo。其他的資金來源還包括彼得·蒂爾(Peter Thiel)、馬克·扎克伯格(Mark Zuckerberg)、傑夫·貝佐斯(Jeff Bezos)以及伊隆·馬斯克(Elon Musk)。

Vicarious 公司 CEO 斯科特·菲尼克斯(Scott Phoenix)曾表示,人工神經網路最明顯的缺點之一是資訊只能單向流動。“如果你觀察一個典型的人工神經網路,你會發現它是一種前饋結構,”他說,“在大腦中有更多的反饋連線,而不僅是前饋連線。所以,至少有一半的資訊流丟失了。”

圖丨Vicarious 公司技術團隊

然而,Vicarious 對目前人工智慧的繁榮也並不樂觀。在過去幾年,谷歌、Facebook、亞馬遜以及微軟等公司都在研究“深度學習”,透過將海量的資料輸入大型的人工神經網路而取得了顯著的成果。比如說,當深度學習系統透過足夠多的訓練樣例後,的確能夠以極高的精確率分辨一張獨特的臉或者某一種動物。但是,這些人工神經網路相對於真實的大腦,僅僅是一種非常粗糙的近似產物。

與眾不同的是,Vicarious 展示了一種新的神經網路演算法,它能夠考慮到更多的生物學特性。其中一個重要的特性是,它有能力將已經學習到的資訊在不同的情境中描繪出來,就像是一種人工的想象力。

實際上,Vicarious 最新的研究成果也正是基於上述思想。想知道他們用來攻破文字驗證碼的秘密武器?其實很簡單,就是借鑑哺乳動物視覺皮層處理影象的原理,並建立類似的 AI 模型。藉助這一方法,機器憑藉很少資料訓練就能準確識別,而且就算環境噪聲變了也不受影響。

在處理視覺的大腦皮層中,不同群組的神經用來識別接收到影象的邊緣或表面特徵(當然,還有其他型別的神經用來做動作識別,但那是另一回事,與本文無關)。但這些皮層神經並不會單純的只是把這些場景視或物體視為不同物件的集合,相反的,這些神經群會互相進行溝通,搞清楚哪些特徵是某個物件的組成部份。

當目標物件被建立以及被識別後,整個場景就可以依照目標物件被逐層建立起來,而不是僅作為獨立特徵。這種以目標物件為基礎的分類方式,可以成功識別出具有類似特徵的影象集合。只要這些圖片的特徵有相關性,即便這些圖形特徵的方向不同,甚至有部分被刻意模糊化,都可以被成功識別出來。

這也是為什麼我們人類在閱讀上下、左右、前後顛倒,或者是被埋藏在充滿噪聲的背景影象中的文字時,仍可以毫無障礙的瞭解語義的原因。或者直接引用 Vicarious 在論文中所舉的例子:“用冰雕刻成的椅子,對我們而言仍是椅子。”

圖丨以字母 A 為例,展示從特徵到場景的逐層建構方式

回到 Vicarious 這次發表的研究成果本身,為了要對大腦的行為進行模擬模擬,研究團隊建立了一個叫做“遞迴皮層網路”(Recursive Cortical Network, RCN)的模型。研究最關鍵的一步,在於識別輪廓、特徵這些可以定義一個物件的邊緣以及內部結構的因素。另一組 Agent 則是負責表徵提取,比如說由這些輪廓所定義的表面平整度等。

根據上述模式被識別出來的特徵集,則是依照與物理實體的相關性被歸類到不同群組。然後這些群組庫又可以在彼此之間建立連結,以此來影響其他庫的特徵選擇,從而形成一個在特徵識別方面相互連線、相互影響的網路。

圖丨Vicarious 演算法的視覺化模型

以此類推,特徵相關的群組以類似的處理模式就被分層建立起來。在層級模型中,提取的最基本特徵在最底層,這些特徵隨著層級上升一層層向上組合抽象。位於底層的特徵既可以被不同的高層應用,還能相互作用,以達到對重疊、變形的影象的識別。

而在這個層級模型的最上層,可能就是需要被識別物件的最終參考結果,研究人員將其定義為“物件假設”(object hypotheses)。為了要使用這些被定義出來的物件去分析整個場景,得到最終語義,RCN 必須經歷需多輪的資訊評估。

另外,RCN 會為這些已建立的物件假設建立一個評分機制,把分數最高的假設和其他分數較低的假設重新進行比對,確保這些假設都是基於同樣的相鄰 2D 空間。

最後,當一個物件假設重複經過選擇和驗證之後,就可確認出最接近的語義,即便這個物件的大小、角度已經被大幅改變,也可成功識別。

圖丨特徵識別單元被逐層建立起來,並最終得出物件假設。與哺乳動物視覺皮層工作原理非常類似

這個演算法最令人驚異的地方就在於其訓練的高效。當研究端對決定著手對付文字影象識別驗證(reCAPTCHA)時,他們僅是簡單的比對了計算機字型檔裡可用的幾種字型。他們給了 RCN 每個字元五個樣本,這些樣本都進行了某種程度的角度扭轉,在識別可靠性上,RCN 達到了 94%的識別準確率。

而在標準的 reCAPTCHA 測試中,RCN 成功解開了三分之二的驗證問題,相較之下,人類進行 reCAPTCHA 驗證的準確率僅為 87%,這也被證明了 reCAPTCHA 已經不再是個有效的安全管理機制,即便被自動識別的機率只有 1%……

圖丨reCAPTCHA 驗證範例

然而,不光是 reCAPTCHA,這個系統也搞定了網路服務中常見的機器人偵測系統,在 Yaohoo 和 PayPal 系統中也達到了 57%的識別正確率。而這些偵測系統的不同,在於所使用的字型,以及部分手動調整的變形,以及背景噪聲變數。

以類似的精確度來說,一般神經網路系統的訓練量必須達到 50,000 個被解密的 erCAPTCHA 字型圖片樣例,而 RCN 僅僅需要 260 個訓練樣例就能達到同樣效果。而如果 reCAPTCHA 對其問題庫的文字扭曲或噪聲變數進行調整,這些傳統的標準神經網路系統就必須重新訓練,否則就無法識別,但 RCN 就沒有這個問題!

圖丨Vicarious(藍色曲線)RCN 與深度神經網路(綠色曲線)在的訓練效率及識別成功率方面的對比

為了把 RCN 應用到真實世界中的文字影像識別中,研究團隊為 RCN 提供了文字的共同外觀(co-appearance)以及被應用的頻率,同時也包含了幾何分析能力。因此,RCN 打敗了最優秀的模型,雖然僅超出 1。9 個百分點。但考慮到 RCN 模型所需要的訓練量遠小於其他模型,比如在這場測試賽中,對手經過 790 萬張圖片的訓練,而 RCN 的訓練量僅僅只有 1406 張圖片,所以毫無疑問,RCN 全面碾壓了傳統神經網路。

這個極高的訓練效率,其實帶來了一個很大的問題——這意味著 RCN 把破解這個世界最常用的網路安全驗證機制所需要的硬體門坎降到極低的水平,很多網路服務大廠可能會因此大傷腦筋了。

但一般而言,這也將成為 AI 的一大躍進。正如圍棋 AI 並不是個通用型 AI,這個系統其實也並不知道驗證碼的真正含義,無法在不同語義見相互轉換,也無法依照其識別結果進行任何下一步行動。但 RCN 為我們提供了一種看待 AI 的全新視角,那就是 AI 不需要與真實的智慧嚴格區分開來。當我們從大腦的運作機制研究中運作中獲得更多知識,我們就能借此改進 AI 演算法的執行效率。

在很長一段時間裡,AI 技術的進步源於硬體效能的升級,更密集的電子元件,以及越來越大的資料集。而 Vicarious 的例子告訴我們,迴歸演算法最佳化的原點,也許會是個不錯的方向。