原標題:巴普洛夫的狗遇見人工智能:中科院自動化所提出類腦經典條件反射學習模型

由俄羅斯神經科學家伊萬·彼德羅維奇·巴甫洛夫(Ivan Petrovich Pavlov)以狗爲模式動物發現並建立的條件反射理論是生物系統學習理論的重要基礎之一。經典條件反射不僅在生物大腦學習中起着至關重要的作用,也爲人工智能學習理論的研究提供了具備生物可行性的機制與基礎。近40年來,腦與神經科學以及人工智能的研究者 通過神經科學實驗與計算建模研究的融合試圖研究和揭示經典條件反射實驗的神經與計算機制。然而,這些模型以往 只能復現和解釋相對有限的經典條件反射實驗

中國科學院自動化研究所類腦智能研究中心曾毅團隊融合生物學、神經科學等學科在條件反射領域的已有研究成果,依據條件反射的神經基礎,即所涉腦區、神經環路、認知功能、神經元尺度的機理與計算機制,提出類腦經典條件反射脈衝神經網絡模型,如圖1所示。該模型 將在條件反射領域達成共識的生物學研究結果整合到一個類腦脈衝神經網絡中,相較於其他計算模型, 類腦經典條件反射模型可以復現神經科學中提出的多達15種經典條件反射實驗,並從計算角度給予合理的解釋,有助於揭示生物體建立條件反射的神經機制。

此外,該模型可以 部署到機器人上,使機器人可以像生物體一樣表現出類腦經典條件反射行爲。經過實驗驗證,該模型還可以使機器人具備 速度泛化的能力,即在導航任務中,在較低速度下,機器人通過條件反射習得運動軌跡,在較高速度下,不需要再次訓練即可完成導航任務。相關工作近期發表於Cell旗下綜合性期刊《交叉科學》(iScience)。

圖1:類腦經典條件反射脈衝神經網絡計算模型

曾毅研究員介紹,條件反射是生物最基礎和重要的學習方式之一,有助於生物體適應複雜多變的環境,使生物體可以預見性地適應環境變化,提高生存能力。從生物進化角度看, 越高等的動物形成條件反射的能力越強,適應環境的能力也越強。團隊借鑑已有的生物學與神經科學研究發現,將達成共識的研究結果整合到統一的類腦脈衝神經網絡模型中, 構建了以腦橋核(PN, pontine nuclei), 間位核(IPN, interpositus nucleus), 顆粒細胞(GC, granule cell), 浦肯野細胞(PU, Purkinje cell) 爲核心的類腦經典條件反射模型。在實驗中,類腦經典條件反射神經脈衝網絡模型在GC和PU之間表現出長時程抑制(LTD),在PN和IPN之間表現出長時程增強(LTP)和長時程抑制(LTD)。

GC和PU之間的長時程抑制(LTD):

(1) 在條件反射建立之前,僅有條件刺激(CS)出現時,顆粒細胞(GC, granule cell) 接收來自間位核的CS,並將其投射到抑制性中間神經元(Int.N, inhibitory interneuron)。來自Int.N的抑制性刺激將抑制來自GC的興奮性刺激和來自浦肯野細胞的自發性放電,因此PU的放電頻率會立刻降到0,換句話說,PU暫停放電。由於在PU的突觸後神經元不放電,GC和PU之間的突觸權重不改變。

(2) 在條件反射建立之前,僅有非條件刺激(US)出現時,US將投射到運動控制通路並引起非條件反射。同時,下橄欖核(IO, inferior olive)接收來自非條件刺激傳輸通路的US,然後通過攀援纖維(cf, climbing fiber)將其投射到間位核和浦肯野細胞。IO到PU的興奮性輸入將加強PU到IPN的抑制作用。由於在GC的突觸前神經元不放電,GC和PU之間的突觸權重保持不變。

(3) 在習得實驗中,由於US額外的興奮性輸入,PU的放電頻率將逐漸衰減至0。隨着GC中突觸前神經元放電頻率的增加和PU中突觸後神經元放電頻率的降低,GC和PU之間的突觸權重增加並表現出長時程增強效應。GC和PU之間的突觸權重隨着CS和US的重複出現而下降,而來自Int.N的抑制性輸入和來自IO的興奮性輸入保持不變,因此浦肯野細胞會暫停自發性放電。這一現象與文獻中報道的關於眨眼條件反射的電生理實驗一致並能夠進行計算復現。

PN和IPN之間的長時程增強(LTP)

和長時程抑制(LTD):

在習得和消退實驗中,單次實驗中單個突觸權重的變化如圖2所示,在習得和消退實驗中神經元的放電頻率分別如圖3和圖4所示。在習得實驗中,在0到2秒時,突觸權重的變化是負的,因爲IPN中突觸後神經元放電頻率的變化率小於PN中的突觸前神經元放電頻率的變化率。CS在2秒時結束,然後US出現並持續兩秒,並在4秒時結束。從2秒到4秒,由於CS結束,突觸前神經元放電頻率降低,同時由於US的出現,突觸後神經元放電頻率增加。由於突觸前神經元放電頻率的降低和突觸後神經元放電頻率的增加,突觸權重的變化是正的。當正項大於負項時,模型表現出習得效應;當正項小於負項時,模型表現出消退效應;當正項等於負項時,模型達到穩態

圖2(左):單次實驗中單個突觸權重變化計算建模;

圖3(中):習得實驗中神經元的放電頻率計算建模;

圖4(右):消退實驗中神經元的放電頻率計算建模。

近百年後續的條件反射實驗進一步完善了巴普洛夫最初的實驗,使得條件反射理論逐步完善。然而以往的計算建模研究至多能夠明確復現10種實驗現象。相較於其他模型,類腦經典條件反射脈衝神經網絡模型可以復現多達15種經典條件反射實驗,如表格1所示。

表格1:同其他計算模型的對比結果。*表明該模型可以復現該實驗,o表明該模型能部分復現該實驗,-表明該模型無法復現或文中沒有提及。

類腦經典條件反射脈衝神經網絡模型

能夠模擬的15種經典條件反射實驗

習得(Acquisition)。習得是指在條件刺激和條件響應之間建立關聯的能力,是經典條件反射中最基本的過程。在習得實驗中,CS先出現,間隔一段時間後US出現,重複幾次後,當CS單獨呈現時,將產生條件響應。習得過程如下所示。在白兔眨眼反射的習得實驗中,反應水平形成一個s型曲線,類似於sigmoid函數。

刺激間隔效應(Inter-stimulus Interval Effect)。刺激間隔效應(ISI)是經典條件反射主要的實時效應。ISI表示CS與US呈現時的時間間隔,它可以分爲三種類型:延遲性條件作用A、延遲性條件作用B和痕跡性條件作用。在延遲性條件作用A中,US在CS終止時立即出現;在延遲性條件作用B中,當US出現時,CS仍然存在,並且CS和US同時終止;在痕跡性條件作用中,CS和US持續時間固定,並且CS在US出現之前終止。Schneiderman和Smith的實證研究表明,在習得和消退過程中,刺激間隔時間和條件響應水平呈現下凹型曲線。

消退(Extinction)。在消退實驗中,如果只呈現一個CS而隨後的US不出現,則習得的條件反射將會逐漸消失。

再習得效應(Reacquisition Effect)。當動物再次學習一個已經消失的條件反射時,相比於第一次習得,它能更快地習得該條件反射。

阻塞(Blocking)。阻塞指的是以下現象:第一個刺激CS 1已經建立起條件反射後,當第二個刺激CS2與CS1同時出現和結束時,第二個刺激CS2無法建立條件反射。阻斷實驗表明,刺激與響應的聯繫並不獨立於早期學習。阻塞過程如下所示,其中括號用於表示CS1和CS2同時出現和結束。

二階條件反射(Secondary Conditioning)。在二階條件反射實驗中,CS 1同US引起的響應建立條件反射,然後CS1被當作US用於CS2建立條件反射。二階條件反射的強度通常比較弱,隨着CS1的逐漸消退,CS2將得到加強

條件抑制(Conditioned Inhibition)。在條件抑制實驗中,CS 2和CS0分別通過US建立條件反射,刺激CS1和先前的任一刺激如CS0同時出現和消失,該過程沒有US出現。在測試過程中,CS1和CS2同時出現和消失,CS1將抑制CS2引起條件反射。

間隔刺激的促進作用(Facilitation by an Intermittent Stimulus)。在正常的習得實驗中,在痕跡性條件作用情況下,若刺激間隔較長,CS 1建立的條件反射強度將會很弱。在促進作用下,額外的CS2可以促進CS1,增加CS1建立條件反射的強度。

遮蓋(Overshadowing)。在遮蓋情況下,CS 1和CS2同時出現和消失,CS1和CS2建立條件反射的強度要弱於正常情況下CS1或CS2單獨建立條件反射的強度。

過度期望(Overexpectation)。CS 1和CS2分別建立條件反射,隨後CS1和CS2同時出現和消失將導致條件反射強度的減弱。

遮蓋自發恢復(Recovery from overshadowing )。在遮蓋實驗中,CS 1的消失可以導致CS2條件反射強度的增加。

阻塞自發恢復(Recovery from forward blocking )。在阻塞實驗中,阻塞者CS1的消失可以導致被阻塞者CS2條件反射強度的增加。

-Natasha Varlamova -

文章的第一作者趙宇軒介紹,類腦經典條件反射模型在復現了更多經典實驗現象的基礎上,又從計算角度提出更加合理的解釋,有助於進一步揭示條件反射的生物機制。如:

(1)在習得和消退過程中,不僅突觸的權重發生變化,突觸的數目也在改變,在再習得試驗中,由於有更多的突觸參與學習,因此相較於初次習得,再習得建立條件反射的速度更快。

(2)阻塞試驗中,因爲CS 1 和CS 2 同時出現和結束,單個突觸權重更新的大小是一致的,但由於CS1先建立條件反射,有更多的突觸參與權重更新,因此W (R,CS 1 ) 權重的變化要遠遠大於W(R,CS2)

(3)二階條件反射實驗在CS2建立條件反射過程中,由於被當做US的CS1同時表現出消退效應,CS2建立的條件反射強度較低。

(4)條件抑制實驗中,CS0和CS1同時出現和消失,CS0表現出消退效應,由於CS0和CS1的同步性,CS1建立抑制性連接;在測試階段,由於抑制性連接和突觸權重變化爲負,CS1的抑制性突觸增多,隨着抑制效應的增強,CS1可以逐漸抑制由CS2引起的條件反射。

(5)促進作用實驗中,正常條件下由於ISI太長,CS1建立的條件反射強度較弱;在促進作用下,CS2建立起條件反射,響應被CS2和US激活了兩次,因此導致CS1建立的條件反射相對較強。

(6)在遮蓋實驗中,由於CS1和CS2同時出現和消失,它們建立條件反射的強度一樣,二者對建立條件反射的貢獻相等,因此二者的突觸強度約CS1或CS2單獨構建條件反射強度的一半。

(7)在過分期望實驗中,CS1和CS2分別建立條件反射,隨後CS1和CS2同步刺激響應神經元,響應神經元的放電頻率增加更快並更持久,表現出消退效應直至模型穩定。

(8)在遮蓋自發恢復實驗中,CS1消失後,僅CS2刺激響應神經元,隨着US的出現,CS2表現出習得效應,加強CS2條件反射的強度。

(9)在阻塞自發恢復實驗中,同遮蓋自發恢復實驗類似,CS1消失後,僅CS2刺激響應神經元,隨着US的出現,CS2表現出習得效應,加強CS2條件反射的強度。

此外,模型的表現同文獻報道的生物實驗結果類似,如在習得實驗中,PN和IPN之間的興奮性突觸數目增加,這與文獻中報道的眨眼反射的電生理實驗結果一致。我們的模型表明小腦皮層,特別是位間核,在經典條件反射中起着關鍵作用。在我們的模型中,GC-PU突觸間的長時程抑制效應導致來自GC的興奮性輸入減少。當US出現時,雖然有來自IO的興奮性輸入,但由於缺少來自GC的興奮性輸入,PU將暫停放電。在BICC模型中,經典條件反射的建立可以沒有PU的參與但不能缺少IPN,這同來文獻中報道的生物實驗表現是一致的。另外還有如習得過程的S型曲線和間隔刺激效應的下凹型曲線也同生物實驗的結果相似。

-Melike Tan -

自然與生活環境複雜多變,類腦經典條件反射學習模型可以有效提高機器人對環境的自主學習和自適應能力。以機器人運動技能的習得爲例, 這項研究通過習得-消退-再習得實驗和速度泛化實驗在類人機器人上驗證了類腦經典條件反射模型的有效性

紅色機器人(被試機器人) 在習得-消退-再習得實驗中的視覺感知結果如圖5所示。上側爲訓練過程,下側爲測試過程,紅色小錘爲條件刺激,藍色機器人爲非條件刺激(看到藍色機器人時,紅色機器人執行躲避動作),上下側的最後一張圖爲無刺激時視覺感知結果。習得過程爲,小錘先出現,藍色機器人後出現,多次訓練後,紅色機器人見到小錘就執行躲避動作。然而如果總是藍色機器人先出現,小錘後出現,則無法習得躲避藍色機器人。這與巴普洛夫實驗中鈴鐺作爲條件刺激,食物作爲非條件刺激,調換鈴鐺和食物的出現順序則無法習得的觀察是完全一致的。消退過程爲,僅小錘出現而沒有藍色機器人出現,經過一段時間後,紅色機器人見到小錘不再執行躲避動作。再習得過程爲,小錘先出現,藍色機器人後出現,相較於習得過程,紅色機器人可以更快的建立條件反射。

圖5:基於類腦經典條件反射脈衝神經網絡模型的機器人習得-消退-再習得實驗

速度泛化實驗如圖6所示。藍色機器人爲被試機器人,白色軌道爲導航軌道,黑色豎線爲條件刺激,紅色豎線爲非條件刺激,機器人見到紅色豎線則執行轉彎動作。在較低速度下,機器人通過條件反射完成導航任務,在類腦經典條件反射脈衝神經網絡模型的支持下,在較高速度下,機器人可以不經過訓練即可完成導航任務。在速度精準可控的仿真環境下,機器人最高可以自適應3.5倍速,完成導航任務,從而明顯提高了機器人的環境自適應力。

圖6:基於類腦經典條件反射脈衝神經網絡模型的機器人速度泛化實驗

“我們課題組自己很喜歡這項工作,不僅僅是因爲已經取得的進展,更因爲 進展爲未來的探索留下了廣闊的空間。”談到未來研究工作的設想,曾毅研究員說:目前已知的18個經典條件反射我們這次發表的模型能夠復現15個,雖然是已知工作中覆蓋度最高的,但是仍然還有3個實驗沒有在計算模型中復現出來,此外我們可能還進一步能夠找到其他十分具有代表性的特點的額外實驗,都將幫助我們更進一步完善類腦經典條件反射的脈衝神經網絡理論與模型。我們現在已經啓動更深刻的研究,這不但意味着未來的工作將進一步提升我們現有模型的生物可行性和計算合理性,以再現更多的條件反射生物實驗,更意味着我們將爲類腦智能研究,特別是類腦認知智能體提供更完善的條件反射學習計算模型,在最基礎的部分支持類腦智能的自主學習。

相關文章