機器學習實現了腦機語言翻譯，距離“意念交流”還有多遠？

摘要：但是，再複雜一些，就可能會必須要從腦電波信號轉碼爲語言（語音或文字）來進行交互了，不然，這些探測到的腦電波數據就僅僅是一些物理信號，而不能具有任何的信息價值。相較於我們習以爲常的AI語音識別技術，AI腦機語言翻譯看起來就已經非常令人驚歎了，那麼要是達到用“意念交流”的腦腦交互的水平，那就有點天方夜譚的感覺了。

編者按：本文系投稿稿件，作者腦極體，版權歸原作者所有。

在《三體》當中，大劉爲三體文明設計了一種“思考即說話”的意念交流方式。在嚴酷的三體環境下，三體人正是依靠這種高效無誤的意念交流方式，實現了知識的無障礙共享、理性決策的高度統一，才能創造出如此高度發達的文明成果和整齊劃一的社會體制。

這一思路就如同去中心化的分佈式計算機，只要建立聯接，每一臺獨立的計算機單元都可以獲知其他計算機單元的數據，每一臺計算機單元理論上也都能夠共享共同的執行命令。

反觀人類，我們就顯得有些“低能”了。首先，我們每個人的大腦都像是一塊白板，任何的數據信息都需要經過大腦的發育和長期的經驗訓練纔可能學到一星半點的知識；其次，我們的大腦又彷彿一個神祕黑箱，每個人都只能通過外在的語言、表情、姿態等信號來識別對方的動機，所謂知人知面不知心就是這個意思。再次，我們的數據信號的輸出又非常低效，我們只能以這種每秒鐘幾KB的語音、詞彙等信息來輸出想法，嚴重製約了溝通效率。

可能有人會質疑，我們有必要向三體人那樣通過“意念”直接交流嗎？假如有一天我們的思想真的可以直接交流，即便有那麼多的好處，同樣那些個人的貪念、惡意也無法隱瞞，這些對我們人類來說都可能是一場巨大災難。

在高等文明來臨前，私慾和惡意就會將人類推進深淵。不過，這種推論仍然是杞人憂天。

一方面目前這種程度的“腦機接口”技術的實現還遙遙無期；另一方面，一旦人類動了“意念交流”的念頭，只要技術有任何可能的突破，好奇心都會驅使那些最聰明的人去實現它。至於技術出來是否“洪水滔天”，那就事後再說了。

當前來看，腦機接口技術正在取得一些顯著的進展。最近一項可以稱之爲腦機語言翻譯的技術，又實現了新的突破。

3月底，在Nature雜誌的副刊《神經科學》上面，來自美國加州大學舊金山分校的研究人員發表了一項新的研究，他們利用機器學習的方法，可以把腦電波信號直接翻譯成了有意義的語音和文字，翻譯準確度得到大幅提高，最低錯誤率只有3%。

這一結果是如何實現的，這一研究意味着什麼，距離實現“意念交流”還有多遠？這些正是我們接下來要討論的內容。

人腦語言翻譯規律，機器學習很有一套

我們先來還原一下這項實驗的過程：研究人員找到四名患有癲癇的受試者，事先在其大腦的控制發音的腦區植入電極裝置。在實驗中，受試者需要先在一個有限的詞語庫裏，反覆地朗讀一些句子。電極裝置就可以在過程中捕捉朗讀瞬間活躍的腦電波信號。

（記錄大腦活動的顱內ECoG電極陣列）

然後，研究人員就可以在在收集到的信號和語句庫之間找規律，把跟控制發聲動作相關的腦電波信息提取出來。接着就可以通過機器學習對這些數據進行訓練，使得AI可以在腦電波信號和語句庫之間建立起映射關係的模型。

最後，你只要在大腦中想象自己說出詞語庫內的某一句話，AI程序就可以根據訓練後的映射關係，來識別你的內心獨白了。

（通過聲波動作的腦電波信號識別語音）

由此可知，實驗得以成功的前提就是複雜的腦電波信號和明確的語詞之間，可以建立一套準確的映射關係。那麼基於數據標記的有監督的機器學習就很容易在訓練中“找到規律”。

論文中還表明，AI在學習識別人類腦電波的速度非常快。實驗結果顯示，只要經過大概40分鐘語音數據的簡單訓練，語音相關的腦電波的AI翻譯，就可以達到比較高的準確率了。其中效果最好的一名受試者，在僅僅經過9次數據訓練之後，詞錯率就降到只有3%了。這個詞錯率已經接近於迄今爲止AI讀取人的想法的最佳表現。研究人員認爲，如果再經過更多的訓練，識別的效果還會進一步上升。

當然，這套映射規則是限定語種、限定語句庫和限定測試者的基礎上完成的。

首先，在這次的研究中所使用的語句庫，只包含100多個詞彙，50-60個句子，比我們日常交流的語句庫少很多。

其次，腦電波的識別是在同一個人的人腦中完成的，也就是還不能證明，不同人之間，腦電波信號的識別規律是否具有遷移性。

很顯然同樣的一句話，受到不同語言背景、不同理解能力，甚至更爲複雜的生理因素的影響，在不同的人腦中，形成的腦電波可能是完全不同的。

這可能就需要針對每個人的腦電波信號的特點，分別建立完全不同的AI識別模型。這也意味着大腦信號之間的直接交流幾乎很難實現，仍然需要具有公共涵義的共同語言作爲中介來實現思想的交流。這也是哲學家維特根斯坦提出的“沒有私人語言”的一種現實困境吧。

那麼，如果AI對於腦電波的文本翻譯能夠達到實際應用的程度，這項技術對於我們意味着什麼呢？

讓失語者重新“說話”，腦機語言翻譯大有作爲

我們先來理解下這項腦機語言翻譯的真正意義。在人類的漫長進化史中，大腦的複雜和語言的出現成爲一對互爲因果的因素，幫助人類從嚴酷的自然環境中勝出，建立起復雜的文明和文化形態。也就是從人之爲人的數萬年時間裏，我們人類的最主要交互方式就是語言，以及在語言基礎上衍生出的文字、信號等溝通方式。

而這次腦機語言翻譯的出現，意味着人類的交互方式出現了新的形式，也就是由大腦信號直接轉化爲語言信號。儘管如我們所說，這一方式離三體人的“意念交流”還有很大距離，但已經是在向這一“意念交流”的方向前進了一大步。

至於現實意義呢？對於普通人而言，無論是誰也不會輕易嘗試在大腦中植入一塊電極裝置，再是日常語言交流仍然是最廉價、最高效地表達信息的方式。短期內，我們還是會習慣語音和手指作爲信息輸入的主要手段。

那麼，這項技術最靠譜的實際應用場景就是針對那些失去語言能力或寫字能力的患病人羣了。事實上研究者的出發點正是幫助因爲中風偏癱、漸凍症或者其他因神經系統疾病而喪失語言功能和溝通能力的人們，恢復語言溝通能力。而AI腦機語言翻譯，就成爲他們重新獲得與世界溝通的工具。

（腦控打字）

在這項技術實現之前，幫助失語者溝通的主要腦機接口技術就是“腦控打字”，也就是通過採集腦信號，控制光標選擇字母，然後組成單詞後輸出。這個領域做到最好效果的Facebook也只能做到每分鐘最多打8個單詞。

在腦控打字難以突破效率難關的情況下，AI腦機語言翻譯可以直接完成腦電波信號到語言轉化，效率一下子提高到了正常人的語速水平。這讓失語者進行語言輸出產生了飛躍的進步。

但現實問題仍然存在，因爲這些測試者都是可以正常說話的，那麼從他們身上採集數據訓練而成的AI算法，是否可以應用到中風病人或者漸凍人身上呢？

正如我們上面所述，每個人的腦電波的信號採集可能存在一些差異，那麼AI算法可能會因人而異，因此很難進行不同人之間的遷移。

那麼就目前來說，只能是在有中風或漸凍症發作前或嚴重前，提前採集他們的腦電波信號，形成專屬的AI翻譯模型，纔可能真正幫助患者。

腦機語言翻譯都來了，那“意念交流”還有多遠？

相較於我們習以爲常的AI語音識別技術，AI腦機語言翻譯看起來就已經非常令人驚歎了，那麼要是達到用“意念交流”的腦腦交互的水平，那就有點天方夜譚的感覺了。

所謂的腦腦交互，那就是不再借助語言而直接依靠腦電波信號進行人際之間的溝通。這種就類似於三體人的思想共享，《阿凡達》裏的人獸聯機的技術。

一般來說，我們通過語言傳輸大腦信息，必然就存在着信息缺失、傳輸損耗以及效率低下的問題。翻譯成人話就是，我們經常詞不達意、左耳朵進右耳朵出，寫篇文章好幾天，聊個天就大半天過去。

腦腦交互則可以大幅提升人們之間交流的速度和信息量，能夠保留和傳輸真實無損的大腦信息，避免誤會，從而根本改變人類的協作方式。

腦腦交互並非完全的空想，現在也有一些基礎的實驗證實了這一可能性。比如2018年華盛頓大學，通過以下實驗，讓三個相互隔離的人帶上了腦電圖頭盔這種非侵入式腦機設備，純靠看和想，共同協作，來完成俄羅斯方塊遊戲。其中2個人負責觀察底部情況和下落的方塊形狀，操控手柄的人則完全不知道狀況，只能讓這兩個人產生腦電波信號，通過一種叫TMS的磁刺激方式來傳遞信息給操控者的大腦，讓其大腦產生操作的指令。

經過5組不同的實驗中，這種腦腦交互傳達信息的準確率達到了81.25%。雖然還遠遠達不到人類之間傳輸信息需要的準確率和複雜度，但是這一實驗帶來腦腦交互的一種可能性。

但是可能性並不意味着現實性。這一點可能性之後仍然要面對大腦這個神祕黑箱製造的無盡難題。

（大腦皮層的語言分區）

目前，神經科學家已經知道人類的認知功能跟大腦的分區有關。研究人員可以通過對大腦神經活動的空間和時間信號進行高分辨率的數據採集，並配合機器學習算法將各種感知覺、運動、語言等高級認知功能所對應的神經信號互相分離出來。然後，可以實現像一些基本的腦機語言翻譯這樣的功能。

但是真正實現語言的解碼翻譯其實還要面臨衆多的困難。除了上面提到的聲波信號對於每個人的腦區的刺激會因人而異之外，由於世界上有上萬種的語言及方言，同一個語義在不同語言和方言下可能對應着不同的腦電波信號。甚至於不同年齡、不同成長環境，不同的情緒狀態都有可能導致完全不同的腦電波信號。

此外，我們閱讀文字也可以引發語言相關的腦電波活動，這肯定與語音刺激的反應又不相同。同樣，不同的文字形態又會帶來不同的腦電波信號模式。

也就是實驗室狀態下的無干擾的測試結果，極難應用到現實場景當中。要實現如此多複雜的腦電波語言翻譯，其難度可能比全世界統一語言和文字的難度還大。那麼想要實現後者，你們認爲其可能性有多大呢？

那麼，對於腦腦交互呢？我們是否可以先繞開語言翻譯的這座大山，先去實現一些非語言化或者先於語言化的腦信號交互呢？比如，找到人類共同的一些辨識方向、情緒以及一些本能應激反應的腦電波信號，通過AI學習，實現信號的解碼和共享。

這確實是有可能的，比如上面俄羅斯方塊遊戲的方向測試，以及在一些大鼠身上做的一些頭部預期運動的信號的測試。但是，再複雜一些，就可能會必須要從腦電波信號轉碼爲語言（語音或文字）來進行交互了，不然，這些探測到的腦電波數據就僅僅是一些物理信號，而不能具有任何的信息價值。

這可能還是應了那個哲學命題，如果意識不通過語言來表達，我們怎麼意識到這個意識呢？

在一個需要靠講故事來撐市值的新型產業，腦機語言翻譯的實現，確實再一次給腦機接口的技術發展和商業化注入了一劑強心針。當然，我們也要冷靜地看到這一技術仍然只具有“實驗室”的成功價值，其用於商業化方面還需要腦機接入的材料成本、安全性，信號檢測的準確度，翻譯模型的遷移性和普適性等各個方面走向成熟。

至於我們試圖去回答的“意念交流”的腦腦交互，大家其實也看到了，前途茫茫，困難依舊重重，甚至還有一座語言的大山橫亙在人類面前。

畢竟，上帝也是靠“說”才創造了世界，而不是靠“想”創造的世界。