原標題:"王者絕悟"的AI江湖故事

近日,2021 世界人工智能大會落幕。在現場,不少王者玩家們見到了他們的老朋友 ---- 王者絕悟。它就像一個江湖隱士一樣,每隔一段時間會突然出現在人羣中,風風火火地大秀一番操作,然後又回到 "山間小屋",深藏功與名。

這次,DeepTech 採訪到王者絕悟團隊,揭開這個王者榮耀與騰訊 AI Lab 共同研發的策略協作型 AI 的 "神祕面紗"。

"天選之子"

2016 年,對於人工智能的大衆化普及來說,是一個很特殊的年份。

那一年, DeepMind 公司的 "AlphaGo" 大戰韓國圍棋國手李世石,引發了人們關於人類與機器誰更聰明的討論熱潮;那一年,HBO 名聲大噪的人工智能系列影視作品《西部世界》開播,人們又開始擔心人工智能是不是要叛變了。雖然這一想法着實有些遙遠,但是看得出來,國外研究者們的 "AI 基因" 已經非常躁動了。

圖 | 人工智能相關影視劇《西部世界》(來源:資料圖)

而把目光轉向國內,那一年,騰訊也開始了人工智能的投入 -- "AI+ 遊戲";當時騰訊的重點,依然是圍棋 AI -- "絕藝"。

不過,像圍棋這樣的遊戲,大家一眼就能看到全局,是完全信息遊戲。對於 AI 的訓練來說,需要一點 "更刺激" 東西。畢竟,張無忌在出生的島上,學到的可能只是劈柴生火,只有真正走進了江湖,他才能學到蓋世武功,才能一步步瞭解到漂亮女人有多 "危險"。

AI 同理,在單智能體測試環境裏,其測試結果和應用範圍也會受到侷限。真正成熟的人工智能技術,必須能夠應對現實中一樣複雜多變的環境,以及具備能同時處理多件任務的 "大腦"。

國外,DeepMind、OPEN AI 相繼開展多智能體的研究。而在國內,王者絕悟誕生了。說得更深刻一些,王者絕悟的出現,其實承載了一份人們對人工智能技術跨越式突破的期待。

因爲,騰訊的 "AI + 遊戲" 的人工智能研究路線,其實與海外的人工智能研究趨勢是相當吻合的 -- 在下一個複雜策略遊戲中,尋找 AI 里程碑。而王者榮耀具備的不完全信息、動作空間複雜、一局裏高達 10 的 20000 次方種操作可能性,註定了其是測試人工智能技術的一塊絕佳良田。

圖 | 王者絕悟VS 王者榮耀職業人氣選手

但是,這一點即是好處,也是壞處。

好的地方在於成果,王者絕悟這個多智能體技術能夠在王者榮耀裏驗證成功,那麼其也就能夠更好地適應現實中的場景,發揮更大的應用價值。

而壞的地方在於過程,上文提到的信息獲取、動作空間等問題,都是擺在王者絕悟團隊面前的 "技術攔路虎"。神功不是一日練成的,這就意味着王者絕悟並非天生 "高手"。

"腹黑型"AI 的長成

回看王者絕悟的成長,有點像是一個初出茅廬的毛頭小子,一步步成爲狡黠腹黑的江湖老炮兒的過程。

2018 年 12 月,王者絕悟在 KPL 總決賽登場。這個時期的王者絕悟,是通過監督學習的方法,模擬學習了 KPL 職業選手的操作。

所謂的監督學習,用人類的話來理解,相當於 "概念理解"。有些人將其形容爲跟着師傅學功夫,其實也挺準確。如果遇到了好師傅,那麼他可能就能得到好的成績;但是如果遇到了不好的師傅,那可能就會模仿到一些不好的習慣。總之,監督學習的對象,決定了 AI 的天花板在哪兒。

因此,在那個階段,王者絕悟的水平,只能算 "頂尖業餘水平"。

而到了 2019 年,隨着在深度強化學習上的不斷深入,王者絕悟則不再需要模仿人類數據,而是自己和自己對戰,進一步提升了微觀操作和大局觀。這個時期的王者絕悟已經非常成熟了,知道如何總結錯誤、提升自己對知識的掌握和認知。技術的進步,讓王者絕悟的反應能力和計算能力得到了質的提升。

在 2019 年世界冠軍盃半決賽的特設環節中,王者絕悟再次登場。只是這一次,對面坐着的,是來自王者榮耀的職業戰隊選手。在這場全國矚目的賽事上,王者絕悟大秀一番操作,印證了自己:擊敗了王者榮耀的職業戰隊,能力已經精進到王者榮耀電競職業水平。

圖 | 王者絕悟概念圖

到了 2020 年,王者絕悟通過自我博弈,已經從單個或者固定英雄組合,高效地擴充到更多英雄組合的學習,並且正式向王者榮耀的玩家開放。那個曾經的 "毛頭小子" 已經長大了,它召開了一場英雄大會,邀請各位一同華山論劍,試試招數的真假。

一方面,這增加遊戲玩家們的體驗樂趣;另一方面,王者絕悟的出現,其實也在潛移默化地刷新大衆對於人工智能的基本認知 -- 它不在是你手機裏的語音助手、或者是餐館裏按照路徑規劃送餐的機器人,而是一個可能比你想象中更聰明、更難纏的"高手"。

在這一次公開的用戶測試中,王者絕悟體現了不輸於甚至超越頂級人類玩家的複雜場景決策能力。騰訊互動娛樂天美 L1 工作室總經理、王者榮耀執行製作人黃藍梟在一次公開演講中提到:在 2020 年 11 月 17 日 - 30 日的 "挑戰王者絕悟" 玩法中,總對局次數達到了 7276 萬;最高難度的挑戰裏,王者絕悟勝率達到 96.2%。

圖丨王者絕悟能力演進路線(來源:王者絕悟)

而到如今,根據王者絕悟團隊的形容,它不僅達到了全英雄職業電競水平,甚至能夠在對局前的 BP 環節就開始計算勝率;對局中也能不斷優化策略,尋找應對佔據的最優解。簡單理解,就是現在的王者絕悟不僅掌握了所有英雄的使用方法,甚至聰明到隨時隨地地針對你,妥妥的一個腹黑型選手。

但是,擊敗人類並不是王者絕悟的使命。如上文所說,王者絕悟的誕生,是承載着人們對於人工智能技術突破的一份期待的。"高手"出山,不是爲了在人羣中尋找存在感的。王者絕悟的價值,也許還需要往遊戲之外來看。

尋找未知的"祕籍"

在 2021 世界人工智能大會上,騰訊公司董事會主席、首席執行官馬化騰曾提到:"AI 在爲我們的生活帶來越來越多的便利,但我們對 AI 的未知仍然大於已知。我們追求科技向善,就要推動 AI 向善,讓 AI 技術實現可知、可控、可用、可靠。"

圖 | 2021世界人工智能大會,王者絕悟展區現場

這讓筆者想到了王者絕悟團隊在嘗試將產品應用於遊戲平衡性調整過程中的時候,發生過的一個小故事。

當時,團隊基於王者絕悟的測試數據調整了某個英雄的參數。但早期投放時,玩家對該英雄調整的反饋卻恰恰相反。大家都以爲是不是王者絕悟的技術出現了 "BUG"。結果,隨着遊戲玩家對該英雄的熟悉和嘗試,數據竟然很快提升到與王者絕悟的測試評價一致!

可見,其實王者絕悟存在的最大價值,就是"基於已知,驗證未知",這個也許是在王者榮耀裏遊戲的未知,也可能是在整個人工智能發展過程中的未知。

畢竟,雖然多智能體系統自 20 世紀 70 年代出現以來迅速發展,已經成爲進行復雜系統分析與模擬的思想方法與工具。但是,並沒有人知道,其現在需要突破的技術邊界到底在哪裏。你說它有問題,但是它已經大規模應用了;但是你說它沒問題,它的研究趨勢上也沒有出現一個像當初 "神經網絡" 一樣推動整個智能感知系統飛速發展的技術窗口。

因此,王者絕悟存在的重要性就顯得尤爲突出 -- 通過一天堪比人類 440 年的測試效率,在王者榮耀這塊複雜的試驗田反覆試驗,不斷驗證着人工智能技術在智慧上的邊界,進而尋找到真正的能夠通往通用人工智能技術終點上的那個 "未知" 的可能性。

而且,王者絕悟還不是一個 "人" 在做這件事兒。

如今,王者榮耀和騰訊 AI Lab 聯合打造的 "開悟" 平臺,希望把騰訊在算法、脫敏數據、算力方面的優勢開放給更多的學術研究人員和算法開發者,一起推動人工智能領域的發展;馬化騰在人工智能大會上也強調,"希望激發青年人對於通用 AI 的研究興趣"。

圖丨開悟與 18 所重點高校戰略合作(來源:王者絕悟)

就好像王者絕悟正在寫一本武林祕籍。沒有人知道里面有什麼招式,甚至連王者絕悟這個高手自己也不知道。所以,它要不斷試驗、不斷測試來驗證每一招、每一式的力量。時不時,他還會跑出來和人們切磋一下,然後又跑回山中繼續它的研究,期待有一天這本祕籍能改變整個江湖。

結語

AlphaGO 所屬的 DeepMind 有一句標語:What if solving one problem could unlock solutions to thousand more ? 用中文的理解,即 "我們解決一個問題的方法,說不定能夠幫助我們解決更多問題。"

張無忌是虛構的,但是武俠精神是真實的。在許多人眼裏,王者絕悟也許現在僅僅只是一個遊戲內的策略協作型 AI,但是其背後的多智能體技術,是切切實實通往通用人工智能重點的路徑之一。

也許有一天,當王者絕悟完成了那本祕籍,也就找到了那個解決上千個問題的 "solution"。

相關文章