周伯文對話斯坦福教授曼寧：人機對話智能新進展需要新「圖靈測試」

過去一年裏，人工智能進展最大的方向在自然語言處理（NLP），BERT、GPT-2 等預訓練模型引領了很多方向的新時代，又催生出了大量商業應用機會。面對技術的進步，AI 領域的頂級學者和從業高管是如何看待未來前景的？近日，2020 智源大會在線上召開，在爲期四天的會議中，5 位圖靈獎得主、上百位業內專家在 19 個專題論壇雲上共同暢想了人工智能

的下一個十年。

在智源大會上，京東集團技術委員會主席、京東智聯雲總裁、京東人工智能研究院院長、IEEE Fellow 周伯文與斯坦福大學教授、人工智能實驗室負責人克里斯托弗 · 曼寧（Christopher Manning）展開了一次精彩的交流。他們討論了自然語言處理領域近期的進展，預訓練模型興起之後的未來發展方向，甚至還爲人工智能的標杆評測基準——圖靈測試找到了一個「替代方案」。

在交流過程中，兩人也提及了京東最近被人工智能頂會 ACL-2020 接收的研究，以及曼寧剛剛發表的工作，有關預訓練模型學習到的語言結構。

在過去這一年中，我們見證了許多 NLP 領域的技術成果和場景落地。對此，人工智能著名學者克里斯托弗 · 曼寧和京東集團技術「掌門人」周伯文是如何看待的？讓我們一探究竟。

語言理解 & 人機對話領域過去一年的進展

周伯文與曼寧在對話伊始回顧了在 2019 年智源大會上尖峯對話中達成的共識：任務導向的多輪對話是 NLP 下一個十年重點的研究和應用方向。周伯文還創造了一個新詞「任務導向型對話智能」（Task-oriented Conversational Intelligence），一方面，任務導向型對話智能可以反向推動許多基礎技術能力的進步，另一方面，它的發展也將對經濟方面產生巨大影響，帶來人機交互技術驅動的萬億級市場。

在語言理解 & 人機對話領域過去一年的進展層面上，周伯文和曼寧不約而同提到了「最令人印象深刻的就是人們見證了超大規模預訓練語言模型的出現，它們可以生成有組織的語言文字表達，」

曼寧表示：「其中的代表就是 GPT-2 和 GPT-3，也包含 BERT、RoBERTA 和 ALBERT、ERNIE 等等不少 BERT 變種。它們使得自然語言理解與生成有了非常大的發展。我們也看到傳統 AI 領域有了很大轉變，很多任務目前都傾向於被大型模型來解決。」

人工智能發展的 40 多年來，我們一直在努力試圖讓 AI 可以回答科學問題。我們過去嘗試使用的思路是研究知識的表達方法，阿蘭圖靈實驗室的 Aristo Project 試圖讓 AI 理解科學道理，進而深度理解世界，這一思路在最初的十年推動了知識的表達與推理。

在 2020 年，我們通過超大尺寸模型實現了巨大的進步。基於 RoBERTa 預訓練模型，我們可以實現 95% 的科學問題回答準確率，這看起來是目前解決知識問題的最好方法了。

這些進步爲新一輪商業應用打開了道路。「未來的方向雖然還無法確定，但我們可以看到基於預訓練語言模型，爲搜索引擎公司等科技企業帶來了很多新商業機會，」曼寧表示。「他們可以實現近十年來最大的單個技術進步，構建更好的機器翻譯系統，對話 AI，人工智能客服系統等等。現在，我們正在經歷 NLP 領域激動人心的時刻。」

NLP 領域最近發生了從特定任務模型向多任務，大規模預訓練模型方向轉變的重要變化。一方面，工業界樂於看到 BERT 這樣模型在下游應用上的前景。但對於學界研究者來說，這種發展大大提高了新研究的門檻。看看 GPT-2 到 GPT-3，它的參數從 15 億增加到了 1750 億。但如果仔細觀察的話，你會發現模型對知識的獲取和推理性能的提高，可沒有參數增加的數量那麼多。

針對這一問題，周伯文指出「在查看 GPT-2、GPT-3 相關論文後，有一件事情引起了我的注意，那就是 - 當我們從零樣本學習 (zero-shot) 到單樣本 (one-shot) 學習時，我認爲 GPT-3 改進了很多。這有效證明了，從小型模型轉換爲大型模型時，預訓練等於更多的信息。」

與此同時，周伯文發現，從單樣本 (one-shot) 學習過渡到少樣本 (few-shot) 學習時，GPT-3 或 GPT-2 的改進非常非常有限。周伯文指出：「我認爲這從另一方面證明，這些更大規模的模型可能並沒有學習到足夠多的信息。」

由此觀之，知識的獲取和表徵可能仍是 NLP 的正確方向。

曼寧認爲，目前的大規模預訓練模型可能存在一些「根本性」的錯誤——這些模型非常低效率。從現實世界人們的對話中學習知識的表徵，總不是一個好方法。可能 5 年後人們往回看就會嘲笑現在的工作：「看看這些人吧，只想着把模型做得越來越大就妄想能夠實現人工智能了。」

對於研究者來說，我們必須尋找更加有趣的，讓模型可以思考、能夠更高效提取知識的方法。某種程度上，人們應該需要找到更好的知識編碼機制，這有關知識空間，語義連接的更好表達方式。這可能和傳統 NLP 的知識圖譜和知識表徵有關。所以讓模型記憶和推斷真實世界的情況，看起來從基礎上就不是一個正確的，高效的方法。

「人類不是通過這種方法學習知識的。人類存儲的知識很少，但可以理解大量知識。」曼寧說道。

GPT-3 通過高達 1750 億參數實現了其他模型無法匹敵的文本生成效果。

作爲一個在該領域中務實的研究人員，周伯文非常關注最近預訓練的大規模語言模型以及對語言任務進行微調的功能。在一個月前放榜的自然語言處理頂會 ACL 2020 上，周伯文等人有兩篇論文被接收。

「在論文《Orthogonal Relation Transforms with Graph Context Modeling for Knowledge Graph Embedding》中，我們得出的結論是通過預訓練模型，我們可以生成非常自然的商品介紹，內容來自預訓練模型，還有圖片、知識圖譜和用戶的評價，」周伯文表示。

另一個例子是在論文《Self-Attention Guided Copy Mechanism for Abstractive Summarization》中，自注意力機制（self-attention）可以幫助我們在對話任務和文本摘要任務上，生成了更多更自然的語句。

據瞭解，京東智聯雲在跨模態內容生成上已取得諸多成果，並正式應用到京東的業務流程中。目前京東智聯雲打造的智能寫作產品，是基於商品圖譜和語言模型構建的營銷內容智能生成服務，在 2020 年京東618 期間，已覆蓋京東零售過半數的商品品類，創作出的導購素材，曝光點擊率相較於人工撰寫的內容高出 40%，讓用戶在大促高峯期間也享受到優質服務。

這樣一些接近實用化的方向已經受到了 NLP 新範式的幫助。毫無疑問，使用預訓練的模型現在可以生成很自然的文本以及對話。但目前的預訓練模型還稱不上完美，曼寧指出，我們還沒法控制這些模型生成的內容。

超越圖靈測試的 AI 新基準

若想實現更好的人工智能，我們必須擁有完美的評測基準（Benchmark），幾十年以來我們一直將圖靈測試作爲「真正人工智能」的測試標準。但圖靈測試是以 AI 模仿人類，試圖「欺騙」測試者進行無特定內容對話的形式來進行的。對於研究者來說，這個過程一直存在難以量化的問題。

在 NLP 技術發展多年後的今天，「我們會不會出現可以代替圖靈測試的新基準呢？」周伯文在對話中提出了這個問題，「過去的幾十年中，圖靈測試一直是基準，但是在日常研究中，它讓我們的研究目標變得明確，對結果推動又沒有太多直接的幫助。」

「這個問題很有趣，也很難回答，」曼寧表示。「我同意這個看法——圖靈測試不是非常清楚的基準。某種程度上我們需要找一個另外的方法，標量真正的理解、真正的持續對話。但我一時沒法給出完美的答案。」

不過周伯文有一個「稍顯瘋狂」的主意，有關最近正火的直播帶貨：熱門主播幾個小時可以帶幾千萬元的貨。這種互動形式看起來非常吸引人，究其根本，它是一個實時的、富有交互性的方式。在這裏播主和觀衆用彈幕和語音實時交流，這似乎爲對話型 AI 提出了更多的要求。

原本的圖靈測試，不會預先指出被測試者的身份，通過評判相似性去界定智能化水平；那麼，我們是不是可以直接公開使用兩個對話型 AI 做直播帶貨，通過統計以每小時能賣出多少商品的可量化指標來對比哪個 AI 的對話更吸引人，從而評估對話型 AI 的智能化水平？

這樣的話，所有評價指標都可以量化，形式也非常接近於真實世界。

「這是一個非常有趣的想法，可以帶來非常清楚的評價指標，」曼寧表示。「直播對於我來說是一個很新鮮的概念，某種程度上來說，這是一個非常直接的評價方式。我不清楚是否完美，但它很有創意：一個人類銷售想要成功，並不取決於對潛在消費者傳遞信息的完美平衡，有時還需要提出超出實際一點點的主張，更加強烈地表達自己的觀點。」

周伯文表示，在未來幾個月裏，京東會對這個方向進行一些嘗試和研究。

學術界如何在預訓練時代引領前瞻性研究

今天的人工智能研究正憑藉算力的增長而快速發展，隨着模型體量的增加，學界研究者面臨的挑戰越來越大。對於研究者們來說，即使希望方法足夠創新，也會在大會上宣講論文時受到這樣的挑戰：「你使用的基準是最新的嗎？」這意味着你不得不直面大量數據。

周伯文表示：「近來，我常被問到一個問題，在如今的雲計算+ AI 時代，研究人員和學者如何跟上？」

據瞭解，2019 年底，京東整合雲計算、人工智能、物聯網業務資源，形成京東雲與 AI 事業部，並於 3 月 5 日面向技術服務領域推出全新的「京東智聯雲」品牌。在剛剛過去的京東618，京東智聯雲提供了全面、穩定、安全、可信賴的技術保障，成爲京東618 的技術基石，並秉持着「成爲最值得信賴的智能技術提供者」的願景，對外輸出更多、更好、更融合、更場景化的技術與服務。

目前雲服務在商業公司中的佈局已日趨成熟。那麼在斯坦福大學，教授們是怎樣平衡增量創新與理論創新的？研究者們是如何使用算力的？

「近年來我們的工作方式有了很大變化。在 20 年前，大學裏纔有最大的超級計算機、最快的網絡。但在最近這些年裏，情況有了翻天覆地的變化——現在算力都在商業公司那裏了，」曼寧說道。

如何解決算力不足的問題，每所大學都有不少思路，最直接的方式就是購買數量有限的，當前最頂配的 GPU，讓很多博士生共用以滿足 80% 時間的需求。「我想這是很多大學都在使用的方法，如果你的實驗室裏有 20 名博士生，這要比每人配置一臺機器節省三倍成本，」曼寧表示。「現在我們構建起了小型集羣，斯坦福 NLP 實驗室有 15 名研究者，我們有大約 100 塊 GPU。你看，這不是一個很大的數字。」

另一個思路就是和京東智聯雲這樣的科技公司合作，在一些需要更多計算的研究中，斯坦福也在購買雲端算力。

每年冬天，曼寧都會親自爲斯坦福 NLP 大課 CS224N 授課。這門課可以吸引 500 名學生，他們的作業都需要使用 CPU、GPU 來訓練模型，而所有學生在課程期間的算力需求是大學負擔不起的。因此，斯坦福接受業界的捐贈。

斯坦福的自然語言處理課程 CS224n 與計算機視覺課程 CS231n 齊名，是 AI 領域最具影響力的公開課程之一。

最後，研究方向也是個問題。「讓模型越來越大可能在最近五年可以實現很大的進展，但在下個十年就不一定了，」曼寧說道。「我們現在可以構建出更大的模型，然後發出論文。但這個對於基礎方向的研究沒有什麼幫助。未來 5-7 年裏可能會出現一個窗口，最聰明的研究者可以用普通電腦和 GPU 構建出 SOTA 模型，打敗大公司的巨大模型。」

「但未來也有可能不是這樣，看看其他行業，如果你是個機械工程的 PhD，你肯定沒法上來就蓋世界最高的摩天大樓，如果你是個航空工程學生，你肯定不會試圖造一架比波音還好的飛機。你需要做的是尋找新的想法。」

研究學者需要更加註重於尋找具有開創性的新想法，並提出原型。舉個例子：機器學習領域裏的 Dropout，其實是在很小的數據集上首次實踐的。

構建可信賴的 AI：可解釋性和真實世界的魯棒性

最近一段時間，周伯文曾在多個不同場合表達了對於可信賴的 AI（Trustworthy AI）的看法，並指出可信賴的 AI 將是智能經濟未來 10 年的新原點。

目前有關可信賴的 AI 已經達成 6 個共識，包含公平、魯棒性（技術的可用性）、價值對齊（技術提供者、使用者和產品應用方都認爲產品帶來價值）、可複製、可解釋以及負責任。構建可信賴的 AI 一面是對技術的巨大挑戰，一面是人文精神，無論是京東智能情感客服傳遞溫暖、亦或京東物流設施傳遞信賴，都是對人類的社會責任與價值體現。

曼寧認爲，人工智能學界目前在可解釋性方面已經取得了一些進展。一方面是像 transformer 這樣的預訓練模型，注意力機制帶來的好處——這些模型具有相當高的可解釋性。

「我的一些學生髮表過論文試圖解讀 BERT 的運作機制。現在，我們已能夠對這些模型進行大量解碼，並看到這些模型不僅是巨大的聯想學習機器，而且它們實際上是在學習人類語言的結構，其解句子的語法結構，瞭解哪些詞是指同一實體，」曼寧說道。

因此，我們已經能夠獲得模型內部的可解釋性，這意味着模型可以對其整體行爲做出某種決定的原因做出一些解釋。當然，這裏還有很多工作要做，斯坦福研究者們正進行的工作希望就驅動模型決策的特徵進行解釋。

曼寧教授在 6 月份還以第一作者的形式發表了論文《Emergent linguistic structure in artificial neural networks trained by self-supervision》，其中寫到預訓練模型實際上可以學習語言結構，不需要任何監督。這解釋了爲什麼大規模的模型是可行的。但是對於下一步如何更好的理解他們是怎麼學習到的，這個目前還不太清楚，周伯文指出「這部分需要可信賴的 AI 來解決」。

這些發現非常令人興奮。之前我們總是認爲想讓 AI 在某些任務上工作良好，需要是大型有監督模型。因此我們總是以大量資金、僱傭很多人進行數據標註開始。這是過去 20 年來的工作範式，人們也是通過這種形式在某些任務上讓 NLP 模型達到接近人類水平的。

「如果下一代人工智能機器本質上和十年前一樣，而考慮到訓練的內容大幅增加，我們實際上是倒退了，而不是前進了，」曼寧說道。

「從技術角度來看，我將專注於嘗試提高 NLP 的魯棒性以及可解釋性。在 NLP 領域中，如果瞭解 NLP 的結構，瞭解 NLP 的語義，將是人們構建可信任 AI 向前邁進的一大步，」周伯文表示。「如何預測下一個單詞的過程對於人們來說還是一個黑箱。另一個方向是可擴展性，當我們從一個任務轉移到另一個任務時，模型需要遷移得足夠好。無論如何，可信賴的 AI 非常重要。如果我們可以在這個領域取得更大的進步，AI 市場和 AI 應用將變得越來越大、越來越多，並且適應性也將大大提高。因此，這將是我們長期關注的重點。」

2020 智源 -京東多模態對話挑戰大賽

在 2019 年，京東舉辦了 JDDC 對話大賽，去年的主題是 Knowledge-enhanced Task-Oriented Dialogue，今年在智源大會上舉辦的對話大賽則主要關注對話中的多模態交互，即研究如何更好的理解對話中的多模態信息，產生 Task-Oriented Conversational response。

本次競賽的數據來自於脫敏後的京東真實客服對話日誌，共包含約 200 萬輪次的對話，其中用戶問題涉及約圖片約 50 萬張。

周伯文介紹到，爲支持參賽隊伍更好的比賽，本次大賽還提供了約 3 萬商品的小型商品知識庫，和 2 萬張圖片的標註數據。大賽開始三週，到目前爲止已有超過 400 人蔘加比賽。