奧推網

選單
科技

意念打字破新紀錄!心中想著「說話」,詞就蹦躂出來,來自斯坦福

詹士 發自 凹非寺

量子位 | 公眾號 QbitAI

意念打字新紀錄誕生!

受試者透過植入裝置,平均輸入速度能達每分鐘62個單詞,是團隊之前紀錄的3倍。

同時準確率也有明顯提升,面向50個單詞詞彙表,識別準確率比先前紀錄提升2。7倍。

據研究者稱,這已開始接近正常人溝通速度(每分鐘160個單詞)。

不信?那就看看現場實況。

受試者“按詞輸入”,點點頭就出了個句子,還是蠻絲滑的:

相比下,此前研究按“字母”逐個輸入,顯得更費勁不少:

2021年登Nature封面的成果展示

創造該紀錄的團隊來自斯坦福,前兩天,他們剛將相關論文預印本放上bioRXiv,引來不小關注。

未參與專案的加州大學舊金山分校研究員Philip Sabes,將之稱為“重大突破”。他認為,相關技術很快將走出實驗室,進入落地階段。

不少網友也對該成果也相當興奮,Reddit點贊上萬,有人恨不能立馬給家人整一套。

值得一提的是,論文發表同一天,共同主要作者之一的Krishna Shenoy因胰腺癌去世,不少學者與研究機構為此悼念。

所以這回,科學家們如何創造出意念打字新紀錄?與之前方式有什麼不同?

繼續往下看。

識別開口說話的神經活動情況

意念打字過去一直是腦科學領域的熱門研究方向,也備受社會大眾關注,更早之前的實現方法是——讓受試者在腦中手寫字母,或是在腦中讀出特定讀音,再靠系統識別。

此次,科學家們用了不同的資訊識別辦法——直接讓受試者“說”出來,哪怕只在大腦裡。

具體來說,他們依靠一套語音腦機介面(BCI)系統,識別人類說話中相關的口腔、面部神經活動情況,透過解碼其動作控制訊號,再去輸出受試者想表達的文字。

基於上述思路,科學家們開展了一系列實驗。

此番受試者是一位女性,時年67歲,她在57歲時被診斷出患有肌萎縮性側索硬化症 (ALS),該病症讓她在很長時間被吐字發音不清折磨,說話僅能發出幾個母音,子音幾乎很難分辨。

為保護隱私,該受試者被團隊稱為T12,2021年的研究中,他們也用了同樣方法,將另一位男性受試者稱為T5。

2022年3月,經當事人同意,科學家為其在腦中植入四個微電極陣列,以檢測語言相關神經活動情況。

在植入後的實驗中,科學家先讓受試者嘗試做不同動作,觀察相關區域的神經活動狀況。

比如,讓受試者睜眼、閉眼、眨眼以觀察控制眼皮相關神經元活動;再比如讓嘴唇張開、閉合、微笑,以檢測相關腦區活動。當然,實驗觀察部位還包括:額頭、下巴、喉部、舌頭等。

科研團隊發現,不同動作之間神經活動高度分離,在特定檢測頻率下,他們針對34個口部面部動作進行解碼,準確率為92。7%,若面向39個音素,解碼準確率為60%。這側面說明原計劃具備可操作性。

下一步是將說話的相關神經活動和文字關聯起來。

科研工作者預先準備了一個RNN解碼器,以80ms為間隔,檢測識別神經活動訊號,這當中,神經網路會依靠最大機率判斷輸出單詞,錯誤的發音也將被糾正,最終輸出文字。

為訓練該網路,受試者需要每天嘗試輸出260-280語句的資料。

百天之後的測試中,無論是否發出聲音,對單詞的識別速度均在每分鐘50詞以上,該表現大約是該團隊此前2021年紀錄的3倍。

且無論面向50個單詞,還是12500個單詞,解碼效率差異不大。

識別錯誤率也有大幅改善。

針對50個單詞的表達,識別錯誤率在9。1%,即便受試者進行不發聲表達,錯誤率也僅11。2%。

針對12500單詞庫時,表達識別的錯誤率為23。8%,不發聲輸出錯誤率為24。7%,該錯誤率與之前研究面向50詞的測試情況正誤情況基本持平,能看出該方法準確度大幅上升。

上述測試之外,科學家還探究了哪些方向能進一步最佳化該系統。

他們考慮了三個維度——語言模型詞彙量、植入腦部電極數量、訓練資料集大小。

結果顯示,隨著單詞數量提高,錯誤率的確會升高,但在1000詞量級趨於平緩(下方左圖),團隊由此認為,日後研究透過壓縮單詞數不一定有效。

但對於植入電極數量來說,更多的通道數(精度)的確會帶來錯誤率降低。如下方右圖,從500提升到1000,錯誤率從4%,降低到了1。9%。

另值得一提的是,即便未經訓練,面向新資料,系統單詞錯誤率也只有30%。且透過訓練,錯誤率會不斷下降。

對於後續研究,團隊指出該成果目前還不是完整的、臨床上可落地的系統。此外,24%錯誤率在日常生活中也還不夠低,後續研究將在各方面努力。

意念打字一直熱度不減

本文一作是Francis Willett,來自斯坦福霍華德休斯醫學研究所,主要研究領域為腦機介面、運動神經科學,他也對人工神經網路模型有所涉獵。

2021年登上Nature封面的意念打字研究中,他也是一作。跟上次一樣,此番他表示——將會公佈研究的程式碼和資料。

另一位主要作者是Erin Kunz,來自斯坦福電氣工程系在讀博士,此前,她還曾在通用擔任自動駕駛工程師。

前文提及剛剛過世的Krishna Shenoy也是本文主要作者。

2021年登Nature的論文,他亦是貢獻者之一,此前研究中,他破譯了與手寫筆記相關的大腦訊號,讓截癱患者快速準確地打字。

該項工作十分關鍵,因為當時他們使用的方法是——

讓受試者在腦中“寫出”字母

除該團隊,在“意念打字”這件事上,還有更多科學家在努力。

比如2022年11月,加利福尼亞大學舊金山分校(UCSF)提出的一種不同方法。他們透過植入128通道皮質電圖(ECoG)陣列,外加一個經皮聯結器,用來連線植入裝置和外部系統。

在識別方式上,他們所想到的是——讓受試者在腦中默唸字母NATO程式碼(比如α代替a,β代替b),完成逐個字母輸入,平均2秒可鍵入一個字母,最終平均字元錯誤率僅6。13%。

之前,量子位智庫對該趨勢也有所展望,認為“意念打字”乃至背後的腦機介面技術已在商業化發展上初具雛形。

清華李路明團隊、瑞金醫院、浙江大學及浙大二院神經外科等團隊或機構,均有所積累。

另值得一提的是,去年末馬斯克及Neuralink還讓猴子搞了一回“意念打字”,雖說是用訓練猴子意念點選螢幕中的黃色按鈕,但也算“蹭”了一波。

當時,馬斯克還說,他和Neuralink已向FDA遞交了諸多檔案,預計6個月後

(預計今年六月)

開啟人體試驗。

但能不能等到,還真不一定……

畢竟同樣的話,他在2022年4月已說過一次了。(狗頭)

參考連結:

[1]https://www。technologyreview。com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/

[2]https://www。freethink。com/hard-tech/speech-bcis

[3]https://www。biorxiv。org/content/biorxiv/early/2023/01/21/2023。01。21。524489。full。pdf

— 完 —

量子位 QbitAI · 頭條號簽約