70歲的圖靈測試已經是老古董了？

來源：科技日報

記者：劉豔

1950年，艾倫·圖靈在《思維》雜誌上發表了其著名論文《計算機器與智能》，並提出瞭如今廣爲人知的圖靈測試。

70年來，圖靈測試一直被認爲是人工智能學術界的“北極星”。隨着人工智能技術的發展，之後也有許多其他測試誕生，但沒有一個能夠與之齊名。“圖靈測試展現出極致的簡單和優雅，這讓它在過去70年中長盛不衰。”DataRobot數據科學副總裁扎克·麥耶說。

機器得到的結果取決於我們設置的指令，但其執行過程卻更爲高效。我們必須承認，機器運行時的很多中間狀態，是在設計初始指令時無法預見的。機器自己也會感悟出很多知識。在這種情況下，我們有必要將機器視爲智能的。

雖然自圖靈測試概念誕生以來，人工智能均以通過圖靈測試爲目標，但進入新時代，人工智能評價標準卻需要從舊基準中脫身升級。

2020年12月28日，亞馬遜副總裁兼語音助手Alexa首席科學家羅希特·普拉薩德在《快公司》上發表的文章中表態，圖靈測試已經失去了意義，是時候建立新的人工智能衡量標準了。

圖靈測試僅限於機器能否給出類人的回答

“機器能否思考？”

爲了回答這個問題，艾倫·圖靈提出一種測試方法：如果一個測試者對無法確認身份的兩個對象（一人、一機器）提出相同的一系列問題，得到的答案讓他無法區分究竟誰是機器、誰是人，那麼則認定機器通過測試。

這種測試方法後來被人們歸納爲圖靈測試。研究者希望能夠據此檢測機器是否能表現出人類也無法區分的行爲，很多初期的人工智能助手都是基於此目標設計的。

麻省理工學院教授大衛·敏德爾說：“這樣的界定，展示的智慧是有限的。”

圖靈在他的論文中曾預測，到2000年，一個普通人在圖靈測試中正確區分人和機器的可能性將降到70%甚至更低。

然而，圖靈當年的預測沒有應驗。

普拉薩德認爲，圖靈測試的目標和當前人工智能研究方向不完全一致，人工智能研究者對通過圖靈測試的興趣不大。人工智能派上更大用場的地方是植入到手機、汽車和家裏，人們更關心的是AI能夠帶來哪些更新的交互體驗和技術進步，而不是通過測試的分數有多高。

事實也如此，人們更加關心與機器的互動及它所能提供的幫助，而不是區分機器和人類。

另外，一些科學家發現，讓人工智能在圖靈測試裏取得更好成績並不難，只需要讓計算機給出的答案儘量像人類給出的答案就行了。例如回答圖靈測試設計的問題時，計算機可以瞬間給出答案，而普通人需要思考或查找信息的時間更長，爲了模仿或騙過人類，機器也可以模仿人類給出適當的停頓、延遲。

從某種角度看，這樣的圖靈測試更像是一場人工智能“欺騙”人類的遊戲。但由此出現了一個突出的問題——爲了通過測試，很多機器被迫削弱了快速查找信息和計算的能力。

機器快速計算和信息查詢的能力遠強於人類，這些能力構成了現代人工智能的核心。在諸如視覺、自然語言處理等領域，最強的算法已經取得遠超人類的結果，以AlphaGo擊敗頂級人類圍棋選手爲代表的種種人工智能的重大進展，很難在一成不變的圖靈測試中得到體現。

也正因此，從應用的角度出發，讓計算機放棄自己的優勢去模擬人類確實完全沒有必要。

更重要的是，圖靈測試僅考慮了文本交流的情況，而沒有考慮到現在的人工智能已經能夠使用各種傳感器，能夠從視覺、聽覺、觸覺等多角度來感受外部世界。

通過圖靈測試已不是現在的研究重點

毫無疑義的是，人工智能對人類社會的影響已超越了圖靈測試的範疇，人工智能研究的目標早已不再侷限於AI與人類的區別，而是如何發揮機器的速度和信息搜索優勢，代替人類完成工作或改善人們的日常生活。

用圖靈測試來檢驗今天的人工智能水平，還有些侷限不能忽略，如圖靈測試沒有詳細的標準，也沒有固定的問答模式，一套流程提問和判斷非常主觀，缺乏嚴謹的標準，並不科學。

那麼，這是否意味着圖靈測試已經過時？

事實並非如此，即便圖靈測試已不能完全證實人工智能的進步程度，但一個優秀的人工智能應該能夠通過圖靈測試。有研究者指出，圖靈測試的巧妙在於它沒有直接去定義什麼是“智能”，而是將“能否思考”這個抽象的問題，引入了一個更精準，也看似更實用的場景。

從這個角度看，圖靈測試不能稱爲過時，只不過是現代人工智能研究不應該把通過圖靈測試作爲重點。普拉薩德亦指出，儘管沒有考慮到人工智能日益增強的收集數據能力和計算能力，圖靈測試仍然是聊天機器人和數字助理常用的基準。

人工智能需要建立一套全新衡量標準

普拉薩德認爲，應該創造新的智能評估方式，適用於評估一般類型的智能機器。新的測試應該弄明白人工智能是如何表現出類似人的智能特徵的，包括語言能力、自我監督和具備“常識”。此外，測試範圍還應該包括人工智能在多大程度上改善了人們的日常生活。

中國工程院院士、清華大學信息學院院長戴瓊海教授也曾在公開演講中指出，人工智能發展非常快，已經取代了人類以往常用的大部分工具。但是，這種取代能不能做得更好，需要做一套測試。

即便是與圖靈測試捆綁最深的人工智能對話系統，其研究者也在呼喚對圖靈測試進行改進。

前微軟全球執行副總裁、微軟亞洲研究院院長沈向洋還在微軟任職時提出，圖靈測試已難不倒像微軟小冰這樣的情感型人工智能產品。鑑於今天的人工智能技術環境，計算機學術界有必要對圖靈測試進行修正和升級，是時候討論難度更高的“超圖靈測試”了。

普拉薩德強調，新的衡量標準應該體現出機器在效率上的優勢，比如計算、搜索、代人完成任務等，綜合評價人工智能給人類帶來的幫助，而不是執迷於消除人工智能和人的區別。他認爲，人工智能只有具備更廣泛的學習能力，才能成爲處理大量任務方面的專家，針對特定任務所表現出的智能並不能代表人工智能真正的能力。

隨着人工智能技術的進步和更多被應用到現實生活中，人們一邊對人工智能改善自己生活有了更多的期待，一邊又對人工智能的使用甚至濫用提高了警惕。

對此，業界正在逐漸達成共識——新的人工智能衡量標準應該在倫理層面有所顧忌，而非固化地遵從圖靈測試的標準。

不能否認的是，研究人員仍對更強大的類人智能問題感興趣，而大衆亦越來越受到科幻影視所展現的未來世界的影響，嚮往更加強大的“通用人工智能”，即像人一樣思考、像人一樣可從事多種工作的機器。

戴瓊海提出，新一代圖靈測試，要從專用智能走向通用智能，要針對新一代人工智能提出的目標和要求，給出新的測試方向。人工智能的需求始終在改變，在不斷重新考慮設計新的評價標準和體系的過程中，人類跨越圖靈測試已經成爲必然結果，但其作爲人工智能發展初期的導航標，極大地激發了人類對人工智能的想象，非凡意義將永遠不會磨滅。