台湾 || 语言: 大陆简体港澳繁體台灣正體

會玩王者榮耀的AI，真的有用麼？

搜狐體育 2021-10-15 18:03

原標題：會玩王者榮耀的AI，真的有用麼？

估計經常玩王者榮耀的人，都應該對一個詞不陌生-- " 王者絕悟 " 。

它是王者榮耀和騰訊 AI Lab 團隊共同打造的一個策略協作型 AI 。

在 2019 年《王者榮耀》世界冠軍盃的特設環節，它打敗了職業選手賽區聯隊，一鳴驚人。

當天它還在 ChinaJoy 進行了 504 場 1V1 比賽，面對一衆實力強勁的玩家，最終只輸了一場，輸給了當時的國服第一后羿，總體勝率高達 99.8% 。

後來王者絕悟進一步面向普通玩家限時開放，去年 11 月限時開放的 20 個挑戰關卡更是讓每個玩家都體會到了王者絕悟的厲害。

這麼說吧，像王者絕悟這樣的 AI ，它通過強化學習機制經歷無數對戰， 一天的訓練強度高達人類 440 年，對自己的能力特別有 B 數，啥大風大浪都見過。

能打過就會上，打不過絕不剛，抱團支援賊溜，越塔強殺也會。

對技能的方位和時間的把控異常精準，彼此間合作天衣無縫，坐擁頂級拉扯戰術。

2019 年的絕悟就已經會輪流抗塔分攤傷害了 ▼

普通人正常打肯定打不過，只好到快手等平臺去搜些特殊戰術，才能勉強拿個 " 智極·絕悟 " 的標籤。

大家紛紛感嘆 AI 現在居然已經這麼強大了。

可能很多人都有相同的感知，現在遊戲 AI 的發展或多或少都受了當年 AlphaGo 的影響。

2016 年 AlphaGo Lee 與李世乭的大戰堪稱人機大戰的轉折點，在這之前人們不相信機器能夠勝任圍棋這種高智商的遊戲，但事實證明了AI 的潛力。

後來 AlphaGo Master 在棋壇橫掃一衆棋手，把 Lee 那一版的缺陷補足，便再無對手，柯潔與之對弈也只能投子認輸。

到了AlphaGo Zero 這一代， AI 已經摒棄了學習人類棋譜這一步，通過大量自我對戰，只需要短短的時間，從能瞎走的小白，就能蛻變成段位極高的大師，甚至發展出人類不曾想到的招數。

只用了3 天， AlphaGo Zero 就把贏過李世乭的 AlphaGo Lee 踩到了腳下， 21 天就打敗 AlphaGo Master 。

也就是說，AlphaGo Zero 證明了，只要人們給輸入規則和目標，程序就可以經過自我博弈不斷進步，也能成爲身經百戰的頂流大師。

這種 " 無師自通，自學成才 " 的本事，立刻在學術界和民間掀起滔天巨浪。

這套自我博弈的方法就是機器學習理論中的 -- " 強化學習 "。

強化學習能解決哪些問題？這套方法解決問題的極限在哪裏？

研究人員把目光從圍棋這種棋牌遊戲，打量到星際爭霸、Dota2 這些複雜策略的遊戲身上。

這類遊戲的複雜度可比圍棋高多了，因爲它們可能包含豐富的畫面信息，還涉及多人對戰，戰爭迷霧、即時戰略、第一人稱射擊等元素。

所以在開發這類AI 時，會遇到多智能體協同策略，不完全信息等等技術難題，更有挑戰性。

AlphaStar 就是 DeepMind 團隊

打造的星際爭霸 AI ▼

這幾年，針對星際爭霸、Dota 2等不同遊戲的 AI 不斷出現，當然，王者絕悟也是其中之一。

說起來大家可能會覺得驚訝， 但王者榮耀這樣的遊戲中，玩家的動作狀態空間能高達 10 的 20000 次方，遠遠超過宇宙原子總數的 10 的 80 次方。

在如此浩瀚的運算空間裏，要做出王者絕悟那樣高效準確的決策，可想而知這挑戰有多大。

基於王者絕悟的研究方法和經驗， 王者榮耀和騰訊 AI Lab 還搞了一個 AI 開放研究平臺 -- 開悟。

最近，騰訊舉辦了一個名爲 " 開悟多智能體強化學習大賽 " 的活動，並邀請國內包括北大、清華、中科大等二十餘所國內外頂尖院校的學霸們參加比賽。

簡單來說， 這個比賽就是要求高校師生訓練出一個屬於自己的 mini 版 " 絕悟 " ，然後導入王者榮耀一決高下。

在比賽中，各大高校的教授和學霸們會利用開悟平臺研究如何用算法解決單、多智能體解決方案，模型結構設計，強化學習算法設計、獎勵函數設計等問題。

比賽模式包括1v1墨家機關道、3v3長平攻防戰，規則與我們玩家在王者榮耀日常接觸到的一樣，最先推倒對方水晶的一方獲勝。

今年已經是第二屆比賽了，去年第一屆賽程還使用過5v5 夢境大亂鬥，冠軍被中科大收入囊中。

肯定有差友好奇，AI 到底怎麼經過自我博弈，最終學會玩王者榮耀的？

那給大家看看魯班七號AI 的進化之路，我們以訓練 10 分鐘，1小時，12小時爲節點，分別看看 AI 的水平有怎樣的變化。

（下方動圖裏，左上角能看小地圖，會顯示紅藍雙方的位置）

這個是訓練了 10 min 的 AI，可以說這時候的 AI 菜得摳腳，彷彿完全不知道要做啥。。。

10min AI ▼

對戰開始，紅藍兩方的小魯班 AI 出了塔之後都非常迷茫，一臉的 "我是誰？我在哪？"，兜兜轉轉瞎溜達，技能也在瞎放。

迷糊了兩分鐘，藍方的小魯班才跌跌撞撞走到了兵線附近。（左上角能看到紅方還在迷茫中。。。）

這時藍方魯班發現，站在兵線前隨意的平A 就可以獲得金錢的獎勵。

並且紅方一直沒出水晶，藍方連 2、3 技能都沒按出來，就已經鎖定勝局。

有意思的是，這時候魯班雖然不知道主動進攻，卻知道抗塔會掉血，看來以前經歷過不少教訓。

據我猜測，通過這一局 AI 就會知道，走中間有兵線的地方平 A 就能得到經濟。

那麼 AI 經過 1h 的對戰訓練後，水平又如何了呢？

1h AI ▼

戰局一開始，紅藍兩方都開始跌跌撞撞往中間走，看來 AI 已經知道了中間兵線有經濟。

紅藍相見分外眼紅，直接硬剛，藍方險勝。

看來此時 AI 還沒學會血量少的時候要苟一下，只知道拿下對方人頭就可以獲得經濟。

訓練了 1 小時的 AI 終於知道放特殊技能了，可惜技能 2 和技能 3 基本就是瞎按，沒有一星半點的準頭。。。

不過相對於 10min 的版本，還是有不小的進步～

最終藍方堅定的在小兵的掩護下推了塔，儘管紅方也知道守塔，顯然大勢已去，無能爲力了。

那訓練了12 小時的 AI 會怎樣呢？

對戰開始，紅藍雙方迅速在兵線附近狹路相逢，二話不說上來就對噴。

12h AI ▼

藍方因爲靠小兵太近，中間不小心火力被兵線吸引了一下，被紅方取得優勢。

這時大家會發現 這時的 AI 已經學會在血量較少的時候後撤，可惜在邊退邊戰的時候被噴死了。

繼續觀看比賽，發現 AI 還學會了在血量少的時候舔血包，甚至懂得回家加血！

藍方魯班舔血包 ▼

紅方魯班缺血後回家補血

滿血後回來反殺 ▼

而且，魯班的 2 技能的準確率也直線上升，3 技能也知道要在兵線和敵方身前釋放。

所以，雖然看起來這個訓練了 12 小時的 AI 動作還是蠢萌蠢萌的，跟人類比起來意識也不行，可是相比較於只學習了 10 分鐘的 AI 強多了。

這就是強化學習 AI 的厲害之處，只要規劃合理，繼續訓練就會變得越來越厲害，直到無法成長。

而學生需要做的就是：優化算法，提高 AI 的上限，縮短 AI 的成熟路徑。

紙上讀來終覺淺，其實這種算法、模型，只有自己親身去實踐，才能知道書本上的公式和理論是如何在真實世界中發揮作用。

爲了讓學生好好比賽，王者榮耀和騰訊 AI Lab 把一切都包圓了。

需要算力？直接開放雲平臺，只需要上傳模型，睡一覺就練好；想覆盤模型好壞？模型的對戰形成的錄像隨便觀看；比賽的底層信息太雜了？直接把遊戲場景和英雄行爲打包成數據接口，直接調用就成……

估計很多人好奇了，這種比賽有什麼意義麼？

想當初， AlphaGo 在圍棋界大殺四方時，有人不屑的表示，只會下棋的AI 能有什麼用？

但 4 年後，它的後輩 Alpha Fold 便在 CASP 蛋白質結構預測比賽上，解決困擾了人類 50 年來的蛋白摺疊問題。

很多人評價說這是能與諾貝爾獎齊名的成就，因爲它可以從根本上改變很多生物學的研究方式。

Alpha Fold 在預測蛋白質如何摺疊上準確的離譜，準到大家不敢相信這是真的。

在下面的動圖裏，綠色是實驗測量得出的蛋白質結構，藍色是 Alpha Fold 的預測結果，兩個蛋白質樣本的實驗結果和預測結果幾乎重合。

人們原本預估能達到這種準確率的方法要幾十年後纔會面世。

但是它就這麼突然出現了，就像當年的AlphaGo 一樣。

這是偶然麼？或許這也是必然。

當年研究AlphaGo 積攢的人才、經驗和學術成就，讓Alpha Fold 的研究如虎添翼，而現在他們已經盯上天體物理、計算化學等基礎科學領域。

人們這幾年瘋狂刷 " ImageNet " 圖像識別準確率、參加 Kaggle 機器學習比賽，不斷互相競爭和學習，把圖像處理、機器學習推向高峯，我們生活中接觸到的面部識別、AI 捏臉等都沾了這些成果的光。

現在問題來了，AI 學會打遊戲有什麼意義呢？

其實王者絕悟、星際爭霸 AI 背後遇到的技術難題，包括不完全信息、多智能體協同策略等等，其中得到經驗和方法，沒準也可以在未來的醫療、智能工業、自動駕駛、智慧城市等領域得到應用。。。

舉個例子，如果把每個紅綠燈都看作一個智能體，那麼這些紅綠燈應該怎麼配合才能讓車流更加順暢，減少交通堵塞？

雖然這看起來和王者榮耀的場景並不一樣，但實際上解決起來 背後的算法是互通的，就是協同策略的問題。

我們又知道，評價 AI 算法優劣是很困難的一件事。

譬如我們要驗證自動駕駛技術，如果我們一開始就造個車或者造個真實場景來驗證，成本很大，很浪費。

B站@XuDongLiang_自制自動駕駛AI ▼

在遊戲上驗證，研究員們就可以專心研究算法，而不用糾結平臺的建造和成本問題。

如 果要評價遊戲對於 AI 研究的意義，舉個類似的感覺，就像是果蠅對於生物研究的意義，因爲它們都是成本低廉且便捷的。

同時，AI 研究領域也有個說法 " 下一個 AI 里程碑，可能會在複雜策略遊戲中誕生 "。

爲了搶佔先機，世界頂尖的科技公司都在探索相應的技術，讓 OpenAI一炮而紅的 OpenAI Five、DeepMind 的星際爭霸 AI AlphaStar、連 Facebook 也在打造 AI CherryPi，當然也包括騰訊的王者絕悟。

論文中王者絕悟的訓練模型 ▼

而王者榮耀和騰訊AI Lab合作搭建的開悟平臺，爲國內AI學術界提供了一個試驗場，讓國內高校也能在複雜策略遊戲中開展研究。

將來，開悟還要和北大、中科大等高校一起開發 AI 課程。

按照王者榮耀執行製作人、騰訊天美L1總經理黃藍梟的話來說，他們爲此開放了《王者榮耀》的核心機制，提供標準接口、核心算法、脫敏的測試數據、評估工具和計算集羣等，給高校師生進行多智能體的機器學習算法研究、學習成果交流、對算法成果反覆迭代升級提供便利條件。

遊戲和學習相結合，早幾年有這好事兒估計鯽魚也是 AI 研究員了。。。

也許，現實社會中的問題比遊戲中的要複雜的多，但我們想要在這個領域獲得突破，就少不了一步一個腳印的去積累，去成長。

去年跟王者絕悟死磕到底的我，現在也可以驕傲的說一聲，當年咱也是參加過全民級 AI 研究的人～

相關文章