本文來自微信公衆號: 神經前研(ID:NeuroHub) ,原 標題《大腦中的反向傳播》,作者Lillicrap.etc.,譯者:山雞、阿 莫東森,題圖來自:《X戰警:逆轉未來 》

俗話說得好:大腦要學習,突觸可塑性少不了。大腦中的神經元能調控自身與其它神經元之間的連接強度,這一點我們早在上世紀七十年代就知道了 [1]

但我們也知道,學習的突觸可塑性理論有一個缺陷,那就是我們不能通過單個突觸的強度變化,來解釋整個神經網絡的行爲: 要明白學習,我們不能只考慮每個突觸的可塑性,還要考慮它的行爲學影響。 因此, 我們需要弄清楚大腦如何協調整個神經網絡範圍內的突觸可塑性。

*譯者注

[1] Bliss & Lømo, 1973

在機器學習領域中,人們在人造神經網絡中研究突觸應該如何表現才能實現效率最大化,這樣也就能規避生物性的限制。爲了得到這樣一個人工神經網絡,首先, 我們要規定一個神經網絡的結構,也就是該網絡中有多少個神經元,神經元之間又該如何連接。

舉個例子,人們一般用的都是含有多層神經元的深度網絡 (deep networks) ,因爲這種網絡結構在很多任務上都表現較好。接下來 ,我們需要定義一個誤差函數 (error function) 。這樣一個誤差函數可以告訴我們: 這個網絡目前表現如何?我們應該如何調整其中的神經元連接來減少誤差?

當前,“backprop” (即back propagation,反向傳播之簡稱) 是機器學習領域最常用、最成功的深度神經網絡訓練算法。用backprop訓練的網絡在最近的機器學習浪潮中佔據着中流砥柱的地位,承擔上了語音和圖像識別、語言翻譯等任務。

Backprop也推動了無監督學習 (unsupervised learning) 的進步,在圖像和語音生成、語言建模和一些高階預測任務中已不可或缺。與強化學習互相配合,backprop能完成許多諸如精通雅達利遊戲,在圍棋和撲克牌上戰勝人類頂尖選手等控制任務 (control problems)

- Matt Chinworth -

Backprop算法將誤差信號 (error signals) 送入 反饋連接 (feedback connections) ,幫助神經網絡調節突觸強度——這個套路已經被老一輩的監督學習 (supervised learning,也就是根據外界提供的“正確目標”所進行的學習) 算法用得滾瓜爛熟。

但與此同時, 大腦中的反饋連接似乎有着不同的作用,且大腦的學習大部分都是無監督學習 (在外界信息中找出其隱含的結構,並對之進行建模) 。因此,自然會有人發問: backprop算法能不能告訴我們大腦是如何學習的呢?

雖然大腦與backprop之間存在諸多不同,但在本文中,我們想指出大腦有能力執行backprop中的核心算法。中心思想就是大腦能利用反饋連接來激發神經元活動,從而以局部計算出的誤差值來編碼“類反向傳播的誤差信號” (backpropagation-like error signals) 。在這裏,我們將一系列看似不盡相同功能的學習算法歸入一個叫做“NGRAD”的算法框架中。

NGRAD (neural gradient representation by activity differences) 指的是通過活動誤差進行神經梯度表徵的算法。NGRAD框架向我們展示了,我們也許能夠在規避實際應用問題的前提下實現反向傳播。這對於任何具有前饋和反饋連接的大腦回路都具有一定的討論意義,但本文中主要探討皮質結構中的表現。 大腦皮質 (cortex) 具有多層的分級結構,且有許多特徵與深度網絡相似。

神經網絡中的責任歸屬

學習,是爲了適應。在談學習之前, 我們先來談談大腦本身的先驗“知識” 。毋庸置疑,大腦經過了演化的訓練,本身就具有經過優化的神經結構和默認突觸強度——這些都能算作大腦的先驗“知識”。它們可能保證了動物能更有效地 (用更少的錯誤嘗試和反饋信息) 學習。

但我們也知道, 雖然演化使得動物常常自出生就擁有令人欽嘆的能力,但是它們也需要大量的後天學習才能掌握另一些能力 ;後者包括了人類下圍棋和象棋的能力、編程和設計電腦遊戲的能力、寫作和演奏鋼琴協奏曲的能力、熟記 (或迅速忘記 [1] 多語種單詞和語法的能力、識別上萬種物體的能力,還有診斷疾病和做血管微創手術的能力。

機器學習領域的近期研究告訴我們,這些能力依賴於強力而泛用的學習算法。因此,我們想在這裏描述這樣的學習算法,並展開分析它們是如何給多層神經元之間的連接,通過責任歸屬 (credit-assigning) [2] 來進行權重分配的。

*譯者注

[1]譯者注:比如我。

[2]譯者注:我們可以這樣來理解責任歸屬:假設你想要在全國法考中名列前茅,你於是參加了厚大法考的培訓,每天按時定量觀看羅老師的培訓視頻和閱讀教材,同時還常跟同考的朋友一起討論考題,最後成功取得佳績;這時,你想要知道,對你取得佳績最爲重要的是哪一個(些)方面——這就是責任歸屬。通過責任歸屬,以後再參加類似考試的時候,你就可以着重注意那個(些)方面。

關聯性方法

突觸強度決定神經活動,神經活動決定網絡輸出,網絡輸出決定網絡誤差。因此,當我們想減少人工網絡的誤差時,我們可以在突觸強度上做手腳。這個手腳該如何去做,是一門講究分寸的學問:一個突觸的強度改變並不會直接影響整個網絡的輸出,而是改變它的後突觸神經元的活動和輸出,從而改變它後突觸神經元的後突觸神經元的活動和輸出... ...以此類推,最後間接影響整個網絡的輸出。

這個突觸的影響力,也叫“投射場” (projective field) ,迅速擴張,因此改變一個突觸強度所造成的影響,要根據它下游的其他突觸來判定。

從概念上來講,要決定增強還是減弱一個突觸的強度很簡單,我們只需要測量改變這個突觸強度對誤差的影響。在人工網絡裏做這類測量也很簡單。首先,我們給這個網絡一個輸入,然後測量並記錄它的基線誤差 (baseline error)

然後,我們給某個突觸增加一些噪音 (noise) ,再給網絡同樣的一個輸入,以此測量並記錄它的新誤差。最後,我們對比新誤差和基線誤差;如果新誤差比基線誤差更小,我們就接受這個噪音對突觸強度的改動,如果更大,就否決這個改動。

假設神經網絡的表現能夠通過誤差函數 (error function) ,即該網絡的輸出值 [y1,...,yM] 與目標值[t1,...,tM]間的差值 (比如通過誤差的平方E=2 ∑l(yl−tl)) 來體現,那麼,想要減少誤差,我們只需通過調節網絡中的權重就能夠實現。

該權重可以表達爲Wij ,其中權重差值ΔWij = −η(E′− E)ξij, η 是學習速率, E代表加入噪聲之前的錯誤,E′代表加入高斯噪聲ξij ~ N(0, σ ) i之後的錯誤。這個方法的問題在於,測量整個網絡的誤差來決定如何改變一個突觸的強度,效率實在太低。

- Matt Chinworth -

當然,如果一些突觸強度的改變比另一些對網絡輸出的影響更大,我們可以同時測量改變N個突觸強度的效果,但這並不能解決上面提到的效率問題,畢竟此時我們需要N次嘗試才知道該如何改動一個突觸的強度來最小化網絡誤差。其實,我們可以通過擾動神經元的輸出,而非它們之間的連接強度,來升級這類“權重擾動” (weight perturbation) 方法。

升級後的“結點擾動” (node perturbation) 方法能計算一個神經元的活動對它的輸出權重的導數,從而加速學習過程。但這種方法仍然非常慢,而且隨着網絡體積的增加,網絡的表現會急劇下降。我們認爲,大腦也許在某些學習過程中會使用這些擾動方法。但令我們驚訝的是, 至今仍未有任何經過擾動方法訓練的神經網絡在複雜問題上 (例如歸類含有多種物體的自然圖片) 取得過成功。

而Backprop算法與擾動算法不同,backprop不測量,而是直接計算改變一個突觸強度對整個網絡的誤差的影響。這在人工網絡中可行,是因爲我們 (程序員) 知道整個網絡中所有的“突觸強度-網絡輸出”因果關係。相比之下,基因型 (genotype) 和表現型 (phenotype) 之間的因果關係一般都受到未知環境因素的調節,因此演化似乎只能測量基因型變動的後果,而不能對其進行計算。

反向傳播

Backprop利用微積分中的鏈式法則 (chain rule) 來計算突觸強度上微小的變動會對整個網絡的誤差有什麼影響;並且,backprop能同時對所有突觸進行計算,因此所需時間僅相當於一次正向傳播 (forward propagation) 的時長。做到這些的核心是對“誤差信號”以遞歸 (recursive) 方式進行鏈式法則運算。在一個多層級神經網絡中,一層中神經元的誤差信號是通過上一層神經元的誤差信號計算得出的。

因此,誤差計算在最底層開始,向上回溯——誤差就這樣在網絡中“反向傳播”。當每個神經元的誤差信號都被算出來後,只要改動每個神經元與它們的前突觸神經元之間的突觸強度,使得它們的後突觸神經元活動向着減少誤差的方向調整,就能降低網絡誤差。

通常情況下,backprop都被當成一類需要外界提供與輸入信號對應的顯性輸出靶點 (explicit output targets) 的算法。實際上,backprop由於以遞歸方式利用了鏈式法則,因此能更普遍地計算網絡中一個部分的活動變動對其下游部分的活動所造成的影響。也正因如此,backprop可以被廣泛用來計算多層級網絡中的責任歸屬。

本文中對backprop的分析限於監督學習;但是切記,反向傳播的信號不僅可以是輸出與外界提供的靶點之間的差別,它還可以是一個時間差分誤差 (temporal difference error) 、一個強化學習中的策略梯度 (policy gradient) ,或是對一個無監督算法的重建或預測誤差 (reconstruction/prediction error) 。即使是一個缺乏外界靶點的生物,也完全可以自己產出這些信號。

譯者評論

backprop成功的關鍵在於:它可以在很短的時間內對外界輸入進行良好建模;這種建模不是一蹴而就的,而是在學習的過程中不斷完善的。對外界環境中的基礎元素進行內源表徵可以使網絡的中間層對不同的物體,利用它們的共享元素,進行表徵(wow這就是3R嗎!reduce, refine, reuse)。

Backprop的一個特點 (大概也是這類算法成功的關鍵) 就是能夠迅速對輸入信號在網絡內建模,以產生內部表徵 (internal representations)內部表徵並不會直接出現在輸入信號或輸出靶點中,而需要在不斷的學習中慢慢被髮掘出來。

內部表徵包含用處甚多的“一磚一瓦” (building blocks) ,比如對角落、形狀的碎片、詞語的語義等等的表徵。網絡的中間層能利用這些“一磚一瓦”來對許多不同的物體進行編碼。這樣,網絡就能用舊的“磚瓦”來對新信息進行表徵,這也就允許了網絡進行一般化 (generalize)

- Matt Chinworth -

Backprop算法的實現有兩大基石,而兩者也都能在生物網絡中被實現。第一, 單個突觸的連接強度要能被改變: 生物網絡中,學習行爲對應的突觸可塑性 (例如依賴於發放時序的可塑性(spike-timing-dependent plasticity)) 能改動單個突觸的強度。第二, 網絡內部的神經元需要收到反饋連接, 這樣網絡才能計算需要的突觸強度變動。

如果一個學習算法能用精確的向量反饋來計算單個突觸的強度變動,以此來優化網絡輸出,那麼我們就將其稱爲“類backprop”算法。這種反饋連接可以是直接的“自上而下”,皮質-皮質 (從高級到低級皮質處理區塊) 連接——在視覺V2和V1之間就存在着這樣的連接。這種連接也可以路經丘腦 (thalamus) ,通過皮質-丘腦-皮質迴路來將高級信息傳播給處理低級信息的腦區和其中的神經元。

反饋連接在皮質計算中的角色仍不明晰,因此我們還不肯定皮質使用了類backprop的學習算法。但是,既然反饋連接能調控神經元發放,而發放決定了突觸強度的調節,那麼這些反饋連接所攜帶的信息自然能影響學習。

如果我們將皮質理解成一個高效的學習機器的話,那麼反向傳播就是皮質運算的一個好候選模型。話雖如此,皮質中的這些反饋連接能如何模擬反向傳播,這當中還有很多細節需要詮釋;此外,一些最容易想到的反向傳播機制,在生物系統中並不現實 (下文有與此相關的討論)

但這些容易想到的機制不現實,並不意味着backprop就不能引導我們理解大腦的學習機制。Backprop作爲一個強勁的學習算法,其核心思想 (神經網絡能利用反饋連接提供的信息,以改變單個突觸強度的方式來進行學習) 在許多應用領域中都屢試不爽,因此我們需要探究大腦利用反向傳播中沒那麼容易想到的機制的可能性。

譯者評論: 大腦皮層與人工神經網絡在結構上存在着許多差異,但皮層各區域存在着一些共性的計算機制,我們認爲backdrop可以幫助我們理解共性的機制以及突觸的差異?

當然,我們應當承認, 皮質在許多重要的方面上與人工神經網絡有不同之處。 舉個例子:皮質的各層 (I層到VI層) 和各區 (例如V1和V2) 在人工神經網絡裏找不到一一對應的部分。另外,在皮質的不同區域裏,細胞種類 (cell types) 、連接規律 (connectivity) 和基因表達 (gene expression) 都有所差異;一個皮質腦區與其他皮質和皮質下腦區之間,都會有衆多連接——而這些還只是皮質和人工網絡種種不同中的一部分。

但雖然如此,各個皮質區域之間還是有一些廣義的相似之處的,其中就包括微柱 (microcolumns) 的普遍存在和皮質區域之間的典型連接規律——這些相似之處說明, 皮質運算也許有泛用型的框架 而明白這些框架也許有用。並且,我們認爲大腦需要用一個類似於backprop的算法來協調突觸強度的變動。

大腦中的backprop?

我們目前缺少大腦使用“類backprop”算法進行學習的直接證據。但是以往的研究表明,backprop訓練的模型能逼近大腦中的神經現象,例如後頂葉皮質 (posterior parietal cortex) 和主運動皮質 (primary motor cortex) 中神經元的特性。神經科學界對視覺皮層的建模研究正在陸續不斷地提供新證據。

這些研究已經發現,利用由backprop訓練的多層模型來對物體進行分類,其對物體的表徵比別的模型都要更接近於靈長類大腦中視覺腹側流 (ventral stream) 的表徵。其他未由backprop訓練的模型的表現則不如backprop網絡;此外,它們得出的表徵與大腦下顳葉皮質 (inferior temporal cortex) 和backprop網絡中的表徵並不相符。

- Matt Chinworth -

雖然backprop訓練出的網絡能得出與大腦大致相符的表徵,但是近期的研究也發現,目前的模型還不能解釋一些人類在物體分類任務上的表現。儘管如此, 由backprop訓練的模型似乎在很多任務上都比其他模型要更逼近大腦。

表現良好和表徵相符,這兩點並不足以說明大腦一定利用了與backprop相似的算法。在算力充足的將來,也許在複雜任務中表現良好的網絡在不使用向量反饋算法的前提下就能訓練出來。我們現在能肯定的是,backprop的實用性和高效率表明,大腦可能利用了由誤差驅動的反饋進行學習。

在機器學習領域內,目前還沒有人能用非backprop算法訓練出高效的、能應對複雜任務 (例如物體分類) 的深度網絡。如果你想用只有標量反饋信號的算法 (例如演化算法和REINFORCE算法) 來訓練能應對複雜任務的高效深度網絡,那麼等待你的只有失敗。

由backprop訓練的深度網絡,不僅可以提供能產出與大腦計算相符的表徵,還能解釋感知學習中,感受野的變化大小和變化時間。此外, backprop網絡還能解釋在某些動物和人類學習過程中的階段性變化 (stage-like transitions)

其他研究表明,皮質II和III層的神經元似乎會計算實際和預測的感知事件之間的誤差,而視覺皮層中,在連續處理步驟中的神經動態與backprop中的層級誤差信號相似。這些發現說明,皮質中的反饋連接可能的確會在多層的表徵中驅動學習行爲。在倒數第二節,我們將會總結支持我們神經機制假設的新發現。

使用神經活動差異進行誤差編碼

在現存的機器學習機制中,許多最近的模型都使用了通過 神經元活動狀態 的改變來 內隱地 驅動突觸改變的方式。這與以往通過坡度信號改變來 外顯地 驅動學習的方式有所不同。當backprop進入主流視野之前,包括玻爾茲曼機 (Boltzmann machine) 在內的許多神經學習網絡已經身體力行地踐行了這個理論。

這些神經網絡通過活動狀態在兩個階段傳播間的時間差異來進行更新 (update) 計算。近來,一些神經網絡還使用了局部環路的神經元組間活動狀態的差異,或是神經元內各部分間 (注:神經元可分爲樹突、胞體和軸突三部分) 的活動差異來計算更新的方法。

我們把上述使用活動階段差異來驅動神經元改變的學習機制統述爲NGRAD,把支撐這種學習機制的理論成爲NGRAD假設。該假說最有吸引力的地方在於它規避了兩種截然不同的定量,也就是活動 (activities) 和錯誤 (error derivatives) ,的傳播。NGRAD的觀點是,來自目標刺激、另一種形態 (modality) 、或是宏觀時空背景的 高層級活動 能夠將 低等級活動(nudge) 向與高級活動或是期望結果相一致的數值。

在這樣的前提下,在低層級活動中誘發的改變就能進而促進反向計算,即僅僅依靠層級內的信號就能夠實現更新計算。綜上, NGRAD的核心在於:自上而下的神經活動能夠在不依靠層級間外顯的錯誤信息傳遞前提下驅動學習。

GeneRec是上述神經網絡算法中較爲成功的一個。GeneRec在玻爾茲曼機算法和循環算法中汲取靈感,以下述方式訓練多層級循環網絡 (multilayer recurrent networks) :在“負相” (negative phase) 時傳來了一個輸入信號,然後循環網絡活動狀態達到一個平衡。而在“正相”中,當輸入信號進入網絡時,輸出信號可能緊抓着或正被推向它的目標值,而活動狀態將再一次達到平衡。

GeneRec的學習規則是簡單而又局部的:每一個突觸權重改變都應等比例的與突觸前/後神經元活動在正/負相的產物相關聯。

- Matt Chinworth -

包括對比赫布式學習 (contrastive Hebbian learning) ,Almeida/Pineda算法與亥姆霍茲機中 (Helmholtz machine) 的醒-眠算法 (wake–sleep algorithm) 在內的一系列其他神經網絡學習都應用了近似的邏輯。我們認爲這種邏輯中最重要的一點在於, 它們應用了在不同時間節點以及不同部位活動狀態,來捕捉引導學習的誤差信息。

新的研究工作在探討backprop生物層面上的可實現性時,也都回歸到了這些問題上——比如平衡傳播 (equilibrium propagation) 就應用了與GeneRec和對比赫布式學習相類似的原則。

進一步來談,許多模型還檢測了在取消負相的情況下能否實現NGRAD學習。這一系列模型應用了預測編碼,利用神經元間/神經元內各部分信息的不同 (而非時間節點上的不同) 來計算預期。儘管NGRAD只計算層級內部的錯誤,而不是像backprop網絡或是反饋對齊 (feedback alignment) 那樣計算層級間的錯誤傳遞,這類神經網絡仍舊能夠達到與backprop近似 (甚至相同) 的計算效果。

爲了一探層級內部活動差異的計算如何引導學習,我們檢測了在神經深度學習處理系統交流會 (Neural Information Processing Systems workshop) 上首次提出、並由李 (Lee) 等人完善的神經模型。該模型的核心有二:自編碼器 (auto-encoders) 將信號從上往下傳導並激活早期層級,以及其誘發的差異促成的權重更新。在下文中,我們將介紹自編碼器,以及在生物學限制下,自編碼器是怎麼成爲深度學習算法的基礎結構的。

自編碼器

那我們從自編碼器開始!自編碼器是一種用來重構輸入刺激的網絡。最簡單的自編碼器將一個輸入信號向量x,在隱藏層級通過權重矩陣以非線性的方式將其轉換成活動向量h = f (x; W ) = σ ( W x) ,其後通過反向權重矩陣將其再轉換爲新的向量x̂ = g (h; B ) = σ( B h) 。

自編碼器的訓練不借助外顯標籤,這是因爲初始向量與重構後的向量之差 (e = x − x̂ ) 即是用於驅動學習的誤差。這裏提到的誤差是由輸入層級中的神經元計算,並通過隱藏層級反饋至輸入層級從而調整權重的。在NGRAD框架中,最重要的理念是自編碼器將高級層級處理的活動目標 (activity targets) 反饋至早期層級,從而通過局部差異驅動學習。

目標傳播

圖3a展示了目標傳播,即使用一系列層級排布的自編碼器進行深度學習的運行過程。我們通過網絡中的層級將活動正向傳播從而獲得一個預測結果,隨後我們使用逆函數將該預測結果反向傳播。假設我們有這樣一系列自編碼器,每一層自編碼器中的隱藏單元 (hidden units) 都是下一個自編碼器的輸入單元:

在正函數中,對於層級:

而逆函數中,對於層級:

下文中我們將把神經網絡中的輸入刺激標註爲:

輸出刺激標註爲:

輸出結果標註爲:

此外,我們在下標中加入了加權矩陣:

如果自編碼器是完美的,那麼逆函數中每一個高級層級都應對應了其下級層級的函數:

進而有:

當正、反向傳輸均完成後(且正向傳輸是在反向傳輸之前完成的),正反向傳輸之間的活動目標差值

將會通過:

驅動學習,即:

通過自編碼器產生的目標驅動學習的理念本身很優雅,但在實際神經活動中這種假設存在着一些問題, 這主要是由於神經元中很難實現完美的正反傳播。

圖3a(左)、3b(中)、3c(右)

https://doi.org/10.1038/s41583-020-0277-3

目標間的傳播差異

上述目標傳播是是理想中的完美情況,但我們也談到了,自編碼器在現實中是無法完美地將目標反向傳播至早期層級的。這種不足可以通過訓練神經網絡進行反向加權來進行彌補。在正向傳播的過程中,我們要嘗試利用下一層級來重建本層級的神經活動 (如圖3b所示)

自編碼器的反向傳播由此產生了分層誤差 (layer-wise errors) :

我們利用分層誤差調整反饋加權:

這意味着神經環路有了元學習的能力。

接下來,我們將 l +1層級的調整目標:

反向傳播至至層級 l (見圖3b, c中的綠色圓球):

這使得自編碼器能針對部分輸入刺激得到更好的發揮。最後,我們像前文所述的那樣使用這些調整過的目標對正向加權進行更新:

這種學習過程叫做目標差值傳播 (difference target propagation,即DTP)

在圖片分類任務中,DTP訓練是行之有效的。經過時間推移,神經網絡通過權重與節點擾動習得了權重更新。人們仍在更具挑戰性的數據庫及更復雜的結構中探索DTP算法的表現。一項近期的研究顯示,針對ImageNet任務,DTP在大型卷積網絡中的表現不如反向傳輸網絡。

此外,DTP算法沒有解決實時學習 (online learning) 問題,也沒有提供在生物結構的基礎上實現正向、反向傳播的思路。無論如何,這種算法爲我們提供了一個在多層級網絡中層級間活動差異如何驅動學習的思路。近來的一些研究提供了大規模任務中恢復表現 (recovering performance) 的路徑。

我們強調了,上述算法在正反向傳播中使用了同類信號,且使用了層內局部活動間的差異來計算誤差。但我們不排除大腦可能應用了更近似於backprop的算法。或許有的人認爲,將特徵預測進行正向傳播,誤差信息進行反向回饋的方式,與神經元的工作方式更爲類似,但目前我們還沒有找到能夠支撐這種假設的證據。

與之類似的另一種理論是,或許存在着第二類特殊的神經元僅負責層間誤差反饋,再將這些反饋在不干擾特徵加工 (feature processing) 前提下進行正向傳播 。我們不清楚該如何有效地實踐這些理論,但要想更深入地理解多層級責任歸屬是如何在神經環路上進行權重分配的,我們同樣不該忽視這些除NGRAD之外的可能性。在現存的多層級責任歸屬算法中仍沒有任何一個能夠完美解釋大腦皮質環路的神經生理學機制,但它們能爲神經學未來的探索提供方向。

- Matt Chinworth -

現存的NGRAD模型爲大腦可能如何運用backprop算法提供了更深層面的理解,但關於這種加工形式能夠如何在神經組織中成功實現,仍有許多問題等待着我們解決。

要想在神經環路中發揮作用,NGRAD需要滿足以下兩點條件: 1. 協調前饋和反饋通路,2.計算神經元活動的規律差異,並據此進行突觸調節。 我們仍不清楚支持上述調節的生物學原理,但近來一系列實證研究提供了一些可能的解釋。

在電腦上運行時我們不需要過多在意前饋或反饋處理中涉及到的記憶環節。對於這種計算在神經元中得到實現的可能性,最早被提出的一種是: 人腦中可能存在一組獨立的、用於反饋處理的“誤差”神經元

DTP也可以通過上述方式得到實現,但在皮層中不存在不受反饋活動影響的前饋神經元——在大腦皮層中,區域內部的前饋與反饋是交互影響的。因此,如果區域A向區域B傳遞了一個前饋連結,A很可能會收到B的反饋信號。

假設在大腦中前饋與反饋迴路應用的是同一組神經元,這將爲我們理解皮層中的backprop學習提供非常重要的啓示。這可能意味着大腦中存在着時間節點上的多路複用 (multiplexing) ,即同一組神經元中先出現了前饋處理,其後被反饋處理所替代。這種假設暫時還沒有得到任何直接證據的支持: 大腦中的前饋與反饋通路是被同時激活且相互作用着的。

當我們談到backprop的神經學基礎時,我們一般假設前饋與反饋突觸對於神經元施加了相近的功能性影響。倘若這種假設是成立的,時間節點的多路複用對於計算活動差異就變得十分必要了。可事實上,神經元中各部分的無論是功能上還是結構上都存在着差異,而神經元活動在各部分間的表現也相差甚遠。

舉個例子,第五層級神經元的頂簇樹突在電神經學上的表現與胞體和基底樹突有所不同。頂簇樹突能接收到直接來自大腦皮層的高級區,或間接通過丘腦中繼的反饋連接。並且,這些樹突能夠作爲半獨立區域,僅在特定情況下才與胞體進行交流。

此外,前饋連接主要作用於椎體神經元中的基底樹突部分,而這一部分在功能上是與其他部分相獨立的,也可能遵循着不太一樣的可塑性規則。

如今,人們已經開始探索更具可行性的神經計算模型。這種模型應當在神經元的各部分實施不同的計算功能。將單個神經元的角色複雜化,有助於我們規避神經元點狀流程模型 (point-process neuron models) 中出現的種種問題。

如果我們能夠細化細胞內部的信息處理區域,那麼前饋與反饋處理便可能同時出現。單個神經元中各部分間的交流能夠以反向傳播的動作電位及高原電位 (plateau potentials) 等方式出現。

進一步來談,細胞內各部分之間的雙向交流還可能受到其他因素的影響,比如有些抑制性中間神經元會抑制椎體神經元中特定部分的活動,獨立的樹突則使大腦皮層中細胞羣簇狀發放導致的多路複用 (burst ensemble multiplexing) 成爲可能,並用此策略來同時進行前饋和反饋處理。由此可見,高頻簇狀發放和單個的動作電位可以在細胞內的不同部分發起,而這些不同的信號又可以進行前饋和反饋傳遞。

- Matt Chinworth -

關於生物實現性的另一個令人振奮的細節在於, (除backprop以外的) NGRAD模型會通過對低層級活動的反饋調節來進行學習。生理學研究中有自上而下反饋主動調節自下而上信息處理的觀點,這與NGRAD模型中的上述細節不謀而合。綜上所述,新的研究證據爲責任歸屬的生理學合理性提供了新的解釋思路。

在神經科學中,大腦皮層是如何通過突觸變動來提升複雜多階段網絡的學習能力,依然是現存最大的問題之一。反饋連接影響的發現爲解決這個問題提供了可能的方向,這給神經科學界帶來了極大的震動。然而在驚喜之餘,研究者們很快發現了反饋調節的缺陷: 反饋調節網絡並不能在人工智能系統中發揮很好的表現,且該算法還面臨着生理可行性的問題。

隨着算法性能的提升、數據庫的擴充以及一些技術改進,backprop能夠在多層級神經網絡中實現與匹敵人類能力的計算表現。我們認爲backprop爲我們理解大腦皮層的學習提供了一個很好的理論框架,但我們仍不清楚人類大腦該如何實現反饋運算。

在將backprop與大腦中學習活動相拼湊的進程中,我們還缺少了許多塊重要的拼圖。儘管如此,backprop如今的發展已與三十年前大相徑庭。研究者們曾經認爲backprop算法不具備生物可行性,因而神經科學能夠從這類網絡中獲得的知識極爲有限。

然而現實是,在深度學習網絡中,利用表現梯度進行學習的效果非常好。由此看來, 也許調控大腦的千萬個基因理應帶着大腦的億萬個突觸向着計算梯度的方向緩慢進化。

原文: https://www.nature.com/articles/s41583-020-0277-3    https://doi.org/10.1038/s41583-020-0277-3

本文來自微信公衆號: 神經前研(ID:NeuroHub) ,作者Lillicrap.etc.,譯者:山雞、阿莫東森  

相關文章