澎湃新聞記者 邵文

AI也有類似人類的“聽覺皮層”、“前額葉皮層”機制嗎?

近日,Meta AI、美國哥倫比亞大學、多倫多大學等的研究人員就完成了一個關於深度學習模型和人腦之間相似性的研究。

“模擬人類智能是一個遙遠的目標。儘管如此,自我監督算法中類腦功能的出現表明我們可能走在正確的道路上。”論文作者之一、Meta AI研究員在推特上發文稱。

所以他們有什麼發現?

研究發現,AI模型Wav2Vec 2.0與人類大腦處理語音的方式非常相似,甚至AI也像人類一樣,對“母語”有更強的辨別能力,如法語模型就比英語模型更容易感知來自法語的刺激。

Jean-Rémi King在推特上發佈的演示視頻中展示了AI模型與人腦相互對應的結構:聽覺皮層與Transformer的第一層(藍色)最吻合,而前額葉皮層則與Transformer的最深一層(紅色)最吻合。

Wav2Vec 2.0 接受了600小時的語音訓練,這大致相當於新生兒在語言習得的早期階段所接觸的內容。研究人員將此模型與412名志願者(351名說英語、28名說法語和33名說中文普通話的人)的大腦活動進行比較。

科學家讓參與者聽一小時自己母語的有聲小說,然後對他們的大腦做功能性磁共振成像 (fMRI) 紀錄。研究人員將這些大腦活動與Wav2Vec 2.0模型的每一層以及幾個變體進行比較,包括隨機(未經訓練的)Wav2Vec 2.0 模型、在600小時非語音上訓練的模型、在600小時非母語語音上訓練的模型、在600小時母語訓練的模型和直接在參與者母語的語音到文本(speech-to-text)上訓練的模型。

實驗有四個重要發現。

首先,Wav2Vec 2.0使用自監督學習來獲取語音波形時的表現類似於在人類大腦中看到的。其次,Transformer層的功能層次與大腦中語音的皮層層次相吻合,這以前所未有的細節揭示了語音處理的全腦排列。第三,該模型對聽覺、語音和語言的表徵與人腦的表徵趨同。第四,對模型與另外386名人類參與者進行的語音辨別練習行爲比較表明一種共同的語言專業化。

這些實驗結果證明了,600小時的自監督學習就足以產生一個在功能上等同於人腦語音感知的模型。Wav2Vec 2.0學習到語言特定表徵的所需的材料與嬰兒學說話過程中接觸到的“數據量”相當。

“深度學習三巨頭”之一Yann LeCun盛讚這是“出色的工作”,這個團隊的研究表明在語音方面接受自監督學習訓練的Transformer分層活動與人類聽覺皮層活動之間,確實密切相關。

谷歌大腦的研究員Jesse Engel則稱,這項研究將可視化濾波器提升到下一個層次。現在,不僅能看到它們在“像素空間”的樣子,而且“類腦空間”中的模樣也能模擬出來了。

但也有一些批評聲音,如加利福尼亞大學洛杉磯分校的神經科學博士後Patrick Mineault就有些懷疑這篇研究是否真的測量了人類大腦的語音處理過程。因爲相比於人說話的速度,fMRI測量信號的速度其實非常慢,這意味解釋結果時需要非常謹慎。Mineault也表示自己並非認爲研究不可信,但這項研究需要給出一些更有說服力的數據。

Meta AI實際上一直在尋找AI算法與人類大腦之間的聯繫。此前Meta AI宣佈,他們將與神經影像中心Neurospin(CEA)和INRIA合作,試圖解碼人類大腦和完成語言任務訓練的深度學習算法如何對同一段文本作出反應。

舉個例子,如通過在一個人主動閱讀、說話或聆聽時,將人腦掃描與深度學習算法進行比較,並給出相同的單詞和句子集進行破譯,研究人員希望找到大腦生物學和人工神經網絡之間的相似之處以及關鍵的結構和行爲差異,幫助解釋爲什麼人類處理語言的效率比機器高得多。

Meta AI研究科學家Jean-Rémi King說道,“我們正在做的是嘗試將大腦活動與機器學習算法進行比較,以瞭解大腦如何運作,並嘗試改進機器學習。”

相關文章