摘要:我們來看這個模型具體說了什麼: 一些傳統的理論任務無模型和有模型學習背後的腦回路是完全分開的(傻白甜和老成世故的智者是分開的), 然而proposer-predictor-actor-critic模型任務它們共用一系列相同的腦模塊的統一過程, 兩者都是由Proposer推薦Plan, 然後由Actor根據預測者Predictor提供的情報決定接受還是不接受, 如果不接受, Proposer還會提供下一個Plan, 直到被接受行爲做出。對於proposer-predictor-actor-critic模型具體如何和大腦對應的問題, 文章也給出了一個初步答案, 具體見下圖, 代表人類系統智慧的關鍵Proposer-predictor由皮層提供, 而獎勵迴路的核心基底核(basal ganglia)則相當於Actor, 和多巴胺分泌相關的系統則充當Critic提供誤差信號。

智能的問題其實可以分爲感知,認知推理和決策三個個步驟,而決策是所有智能最終的目標 可惜的是目前來看關於決策的理論還極爲缺乏。

如果有一個理論框架可以從神經科學的角度說清楚人類是怎麼決策的,它該是什麼樣的?這一點就不得不提著名的系統一和系統二理論(名著think fast,think slow,Kahneman, Daniel), 認爲我們的大腦有快與慢兩種做決定的方式,常用的無意識的系統1依賴情感記憶和經驗迅速作出判斷, 類似於我們說的直覺,但系統1也很容易產生錯覺。而有意識的系統2,通過調動注意力來分析和解決問題並作出決定,它比較慢,不容易出錯,能夠分析因果進行推理,但是調用這個系統需要極高成本, 那些理性的聰明人都是通過刻意訓練達到了運用系統二的絕佳策略。

雖然這個理論通俗易懂,但是它缺乏對決策過程更加機理性的描述(mechanics),因而也很難被人工智能所利用。有沒有從神經科學角度闡述這個過程的作品?底下一篇論文算是一個絕佳的闡述:

Neural Mechanisms of Human Decision-Making

Seth Herd 1 , Kai Krueger 1,2 , Ananta Nair 1 , Jessica Mollick 1,3 , and Randall O’Reilly 1,4

文章的宗旨是把著名的系統一和系統二的思想放到神經網絡和強化學習的角度來看。從這個角度看,系統一是能夠快速響應的本能決策系統,對應強化學習的無模型學習, 而系統二是能夠精細的計算,計劃和想象的決策系統, 對應有模型的強化學習。而模型來源於預測, 預測世界的未來變化以及動作本身的回饋,這個系統具有更高的精度和泛化能力,然而速度更緩慢, 不難看出它對應我們日常生活的理性決策。而最終,還需要一個腦模塊需要對最終無論是來自系統一還是系統二的行爲結構進行評估, 查看它是否達到預期, 這部分模型可以稱爲Critor(批評者,領導)。文中把這個系統定義爲proposer-predictor-actor-critic模型, 有背景的同學請自覺腦補強化學習的著名理論Actor-Critic。

與以往理論不同的是,文章很好的指出了不同模塊所對應的腦網絡組件和它們之間的配合。比如指出了基底核的基本角色對應actor-critic的批判者, 能夠保留或者拒絕由皮層提出的計劃。這些模型體現了強化學習算法是如何指點人類認識自身決策系統的。

我們來看這個模型具體說了什麼: 一些傳統的理論任務無模型和有模型學習背後的腦回路是完全分開的(傻白甜和老成世故的智者是分開的), 然而proposer-predictor-actor-critic模型任務它們共用一系列相同的腦模塊的統一過程, 兩者都是由Proposer推薦Plan, 然後由Actor根據預測者Predictor提供的情報決定接受還是不接受, 如果不接受, Proposer還會提供下一個Plan, 直到被接受行爲做出。最終被批評者Critic評估。這樣看無模型的決策到有模型的決策是一個連續光譜,只不過根據中間過程的計算深度不同,以及是否涉及預測這個步驟, 來區分出系統一的簡單決策和系統二的複雜決策,那些比較複雜的決策,通常涉及預測這個關鍵步驟。

具體我們來看Proposer, Predictor, Actor, Critic是如何配合的;

Proposer: 建議者的角色是提出好的計劃, 這背後是形成該計劃的表示, 這與深度學習的核心 -表示學習密切相關。在過去大量數據中形成的對不同情景的表示, 事實上也包含了可能的解決方法。不同的表示構成一個模塊化的系統, Proposer就是這種模塊化的系統。根據當下最新的輸入,Proposer會很快選擇一個適合的模塊作爲計劃的表示, 然後傳遞給Actor。

Predictor: Predictor 的作用是預測某個計劃最終的產出, 顯然這需要知道不同行爲導致的結果, 也就是知道不同行爲得到的世界的反應。這個過程事實上備選的,也就是說在一個決策可以包含它也可以不包含。當然包含預測的決策過程會準確很多,也具有更強的泛化能力,同時意味着需要消耗更多的能量。

Actor:和我們日常所想的Actor就是執行一個行爲不同。模型中的Actor事實上所做的動作只有兩個, go和no-go,go就是採納Proposer的計劃, 而no-go就是拒接。它的採納和拒絕是根據Preditor的預測和以往的歷史數據,可謂體現基於模型與否。如果計劃被拒絕, Proposer會提出一個新的計劃被選擇,直到被接納。可以看到在這個過程裏計算逐步深化。一開始由於直覺和衝動做出的建議可能會被更理性的計劃所取代。估計這也是爲什麼我們說的等一等再決策的理論依據。因爲人的決策過程是一個串行過程, 一開始上來的東西往往比較本能, 而拒絕本能需要時間。

Critic:Critic的作用是最後評估被採納的計劃的結果,把最後的output和預期進行對比,找到這個區別提供一個誤差信號。這個信號被多巴胺接受, 成爲我們多巴胺學習的基礎, 顯然這一步是爲了改善以後的行爲使用的,誤差信號對訓練前幾個系統作用巨大 。

這裏的計劃建議體現了我們的決策背後無論如何都需要一定的表示, 假設或模型,但是它們可能有的簡單,有的複雜, 這就把認知和決策巧妙的結合在一起。而爲什麼用到“計劃”而不是“行爲” 我認爲包含了層級強化學習的思想。一個計劃包含了一組不同的行爲, 可以看成是打包了的行爲,如此對於學習層級化的動作意義重大。

文章的最後一部分聚焦在神經科學有哪些證據支持如上理論,實驗者利用了猴子在執行決策任務時候記錄的神經元活動數據得到證據。

此處的關鍵是實驗的設計:作用遵循如下的實驗框架。

一個任務必須包含一些列的states(situation)和最終目標,然後不同的plan會得到不同的結果, 這個結果客戶以目標進行比對。

事實上對於這類理論,最難的步驟也就是任務設計。因爲一方面它要和神經科學實驗對應,就不能找太難的任務,而一旦任務太簡單了,就顯得非常無聊,更是人工智能研究者不care的。因此, 對於智能決策的任務的關鍵,在於找到一系列中間難度的任務,體現複雜決策中模型的價值,又方便實驗者分析。對於決策任務的設計,感興趣的可以閱讀:

Tasks for aligning human and machine planning

Ma, Wei-Ji, and Bas van Opheusden. "Tasks for aligning human and machine planning." (2019).

對於proposer-predictor-actor-critic模型具體如何和大腦對應的問題, 文章也給出了一個初步答案, 具體見下圖, 代表人類系統智慧的關鍵Proposer-predictor由皮層提供, 而獎勵迴路的核心基底核(basal ganglia)則相當於Actor, 和多巴胺分泌相關的系統則充當Critic提供誤差信號。具體內容見論文。

最後分享一個鐵哥3月30號的 live 講座 ICLR論文看腦科學如何助力人工智能:

鐵哥知乎live講座-從導航看AI的未來  (點擊原文鏈接)

從中你可以瞭解如何用強化學習構建一個適應各種不同環境任務的導航系統,製造一個“聰明”的人工小鼠。

更多閱讀

海馬體啓發下的類腦人工智能

4種不同的記憶及記憶的本質

相關文章