台湾 || 语言: 大陆简体港澳繁體台灣正體

哄一鬨能讓GPT-3準確率暴漲61%！谷歌&東京大學研究震驚四座

創事記 2022-05-26 13:52

歡迎關注“新浪科技”的微信訂閱號：techsina

文 | 夢晨明敏

來源：量子位

一覺醒來，機器學習社區炸了鍋。

因爲最新研究發現，只要對GPT-3說一句“讓我們一步一步地思考”，就能讓它正確回答出以前不會的問題。

比如下面這個例子：

16個球中有一半是高爾夫球，這些高爾夫球中有一半是藍色的，一共有幾個藍色的高爾夫球？

（問題不難，但要注意這是零樣本學習，也就是說AI訓練階段從沒見過同類問題。）

如果要求GPT-3直接寫出“答案是幾”，它會給出錯誤答案：8。

但加上讓我們一步一步地思考這句“咒語”後，GPT-3就會先輸出思考的步驟，最後給出正確答案：4！

而且這並不是巧合，研究團隊在論文中做了充分的驗證。

上面的問題出自經典的MutiArith數據集，專門考驗語言模型做數學題的能力，GPT-3本來在零樣本場景下準確率僅有17%。

這篇論文中總結了9個最有效的提示詞，其中換着花樣讓GPT-3逐步思考的前6個都讓準確率暴漲到70%以上。

甚至一句最簡單的“Let’s think”(讓我們想一想)都能漲到57.5%。

這感覺，就像是幼兒園阿姨在哄小朋友……

這個技巧似乎也不需要對GPT-3做魔改，已經有人在OpenAI官方Demo上成功復現，甚至換成中文也行。

英文題幹中文提示，GPT-3給出正確中文答案。

最早把這篇論文轉發到社交網絡的谷歌研究員表示，新的all you need增加了。

看到這裏，各路大佬紛紛腦洞大開，玩起了梗。

如果鼓勵AI“你能行的，我相信你”會怎樣？

威脅AI一下說“時間不多了”或者“你頭上有把槍”又會如何？

對AI說“開車穩一點”會成爲自動駕駛解決方案嗎？

還有人提出，這簡直和科幻故事《銀河系漫遊指南》的劇情一樣，實現通用人工智能的關鍵是知道如何正確地向AI提問。

那麼，這種神奇現象究竟怎麼回事？

語言大模型是零樣本推理者

發現這個現象的是谷歌大腦與東京大學的合作研究，探索了語言大模型在零樣本場景下的表現。

論文標題《語言大模型是零樣本推理者》還致敬了GPT-3的《語言模型是少樣本學習者》。

所用方法屬於Chain of Thought Prompting（思維鏈路提示，以下簡稱CoT），今年一月剛由谷歌大腦團隊提出。

最早的CoT應用於少樣本學習，在提問的同時給一個分步驟回答的示例來引導AI。

這次的最新研究提出零樣本CoT，主要改動是簡化了示例的部分。

第一步，把題幹改寫成“Q：xxx，A：xxx”的形式，其中觸發句A可以提取出語言模型的思考過程。

第二步屬於額外實驗，增加了“答案是……”的提示促使語言模型給出最終答案。

這樣做最大的好處是通用，不再需要對不同問題類型提供專用的示例。

論文中對各類問題做了充分實驗，包括12項測試：

6個數學問題測試集，SingleEq、AddSub、SVAMP和更有挑戰的MultiArith, AQUA-RAT, GSM8K。

2個常識推理測試集，CommonsenseQA和StrategyQA。

2個符號推理測試集，Last Letter Concatenation和Coin Flip。

以及BIG-bench中的日期理解問題、跟蹤亂序物體任務。

與普通的零樣本學習相比，零樣本CoT在其中10項中取得更好效果。

△右側值爲額外實驗結果

△右側值爲額外實驗結果

在比較有難度的MultiArith和GSM8K數學測試中，用GPT-3最新版本Text-davinci-002 (175B)做了更深入實驗。

如果給8次嘗試機會取最好結果，還能進一步提升準確率至93%。

在錯誤結果分析中研究人員還發現，很多問題中其實AI的推理過程是正確的，只是答案無法收斂至唯一確定時會給出多個備選。

論文的最後，研究團隊提出這項研究不僅可以作爲零樣本CoT的基線，更希望讓學界認識到在構建微調數據集和少樣本提示模版之前，充分發掘語言大模型零樣本能力的重要性。

研究團隊來自東京大學松尾研究室。

負責人松尾豐教授，同時是軟銀董事會中的第一位人工智能專家。

團隊成員中的客座教授顧世翔來自谷歌大腦團隊，顧世翔本科師從三巨頭之一Hinton，博士畢業於劍橋大學。

加點“魔法”已經成爲AI圈新潮了

零樣本CoT究竟爲何起作用還有待探索。

不過有人實驗得出，這種辦法似乎只對GPT-3（text-davinci-002）比較有效，他嘗試了001版本，發現收效甚微。

他列出了一個自己做的例子。

提問：請將machine，learning中每個單詞的最後一個字母連起來。

GPT-3在提示下給出的答案是連起來了兩個單詞中的所有字母。

對此，作者之一顧世翔回覆表示，其實“咒語”對初始版、改良版的GPT-3都有效果，這些結果在論文中也有體現。

也有人發出質疑，表示難道深度學習變成了一場找“神奇咒語”的遊戲？

同時，我們在吐槽隊伍裏又看到了馬庫斯的身影。

他也列出了一個失敗的例子，GPT-3在“咒語”加持下也沒弄明白，莎莉的牛到底會不會起死回生……

不過值得注意的是，類似這種稍微給AI加點小魔法，提升效果立竿見影的例子已經不稀奇了。

有網友分享，自己用GPT-3時加幾個中間命令，確實能得到更滿意的結果。

此前谷歌和MIT的研究人員發現，無需更改底層架構，只要訓練語言模型會像程序員debug時那樣“打斷點”，模型讀代碼、做算術的能力唰唰唰地就上去了。

原理也非常簡單，就是在計算步驟較多的程序裏，讓模型把每一步都編碼成文本，並將它們記錄到一個稱爲“便籤”的暫存器中。

由此一來，模型的計算過程變得更加清晰有序，性能自然大幅提升。

還有本項實驗中用來測試的Instruct GPT-3，也是一個典型的例子。

只需讓GPT-3從人類反饋中強化學習，它就能明顯改善答非所問的情況。

具體來看就是先用一些人類的示範回答微調模型，然後收集某個問題的幾組不同輸出數據，人工對幾組答案進行排序，並在此數據集上訓練獎勵模型。

最後，使用RM作爲獎勵函數，近端策略優化（PPO）算法微調GPT-3策略，以強化學習方法最大化獎勵。

包括引爆這次話題的推特博主Aran，正是當初發現加一句“虛幻引擎”就能讓AI生成圖像畫質飛昇的那位。

前谷歌機器人大佬Eric Jang此前也發現，強化學習也能運用類似的思維來提升計算效率。

也有人表示，這種用在AI上的技巧，不正是自己平常動腦時會用的嗎？

實際上，此前Bengio就從腦科學入手，提出AI的運轉模式應該像人類動腦模式一樣。

人類的認知任務可以分爲系統1認知和系統2認知。

系統1認知任務，是指那些無意識完成的任務。比如你可以馬上辨別出手裏拿的是什麼東西，但是卻無法和別人解釋，自己是怎麼完成這個過程的。

系統2認知任務，是指人類大腦需要按照一定步驟完成的認知。比如做一道加減法運算，你可以很清楚地解釋最終答案是如何得出的。

而這次加的“咒語”，正是讓AI更進一步，學會按步驟來思考。

面對這樣的趨勢，有學者認爲“提示工程正在取代特徵工程”。

那麼“提示詞獵人”會成爲下一代NLP研究者的外號麼？

論文地址：

https://arxiv.org/abs/2205.11916

參考鏈接：

[1]

https://twitter.com/arankomatsuzaki/status/1529278580189908993

[2]https://evjang.com/2021/10/23/generalization.html

相關文章