原標題:會玩王者榮耀的AI,真的有用麼?

估計經常玩王者榮耀的人,都應該對一個詞不陌生-- " 王者絕悟 " 。

它是王者榮耀和騰訊 AI Lab 團隊共同打造的一個策略協作型 AI 。

在 2019 年《 王者榮耀 》世界冠軍盃的特設環節,它打敗了職業選手賽區聯隊,一鳴驚人。

當天它還在 ChinaJoy 進行了 504 場 1V1 比賽,面對一衆實力強勁的玩家,最終只輸了一場,輸給了當時的國服第一后羿,總體勝率高達 99.8% 。

後來王者絕悟進一步面向普通玩家限時開放,去年 11 月限時開放的 20 個挑戰關卡更是讓每個玩家都體會到了王者絕悟的厲害。

這麼說吧,像王者絕悟這樣的 AI ,它通過強化學習機制經歷無數對戰, 一天的訓練強度高達人類 440 年,對自己的能力特別有 B 數,啥大風大浪都見過。

能打過就會上,打不過絕不剛,抱團支援賊溜,越塔強殺也會。

對技能的方位和時間的把控異常精準,彼此間合作天衣無縫,坐擁頂級拉扯戰術。

2019 年的絕悟就已經會輪流抗塔分攤傷害了 ▼

普通人正常打肯定打不過,只好到快手等平臺去搜些特殊戰術,才能勉強拿個 " 智極·絕悟 " 的標籤。

大家紛紛感嘆 AI 現在居然已經這麼強大了。

可能很多人都有相同的感知,現在遊戲 AI 的發展或多或少都受了當年 AlphaGo 的影響。

2016 年 AlphaGo Lee 與李世乭的大戰堪稱人機大戰的轉折點,在這之前人們不相信機器能夠勝任圍棋這種高智商的遊戲,但事實證明了AI 的潛力。

後來 AlphaGo Master 在棋壇橫掃一衆棋手,把 Lee 那一版的缺陷補足,便再無對手,柯潔與之對弈也只能投子認輸。

到了AlphaGo Zero 這一代, AI 已經摒棄了學習人類棋譜這一步,通過大量自我對戰,只需要短短的時間,從能瞎走的小白,就能蛻變成段位極高的大師,甚至發展出人類不曾想到的招數。

只用了3 天, AlphaGo Zero 就把贏過李世乭的 AlphaGo Lee 踩到了腳下, 21 天就打敗 AlphaGo Master 。

也就是說,AlphaGo Zero 證明了,只要人們給輸入規則和目標,程序就可以經過自我博弈不斷進步,也能成爲身經百戰的頂流大師。

這種 " 無師自通,自學成才 " 的本事,立刻在學術界和民間掀起滔天巨浪。

這套自我博弈的方法就是機器學習理論中的 -- " 強化學習 "。

強化學習能解決哪些問題?這套方法解決問題的極限在哪裏?

研究人員把目光從圍棋這種棋牌遊戲,打量到星際爭霸、Dota2 這些複雜策略的遊戲身上。

這類遊戲的複雜度可比圍棋高多了,因爲它們可能包含豐富的畫面信息,還涉及多人對戰,戰爭迷霧、即時戰略、第一人稱射擊等元素。

所以在開發這類AI 時,會遇到多智能體協同策略,不完全信息等等技術難題,更有挑戰性。

AlphaStar 就是 DeepMind 團隊

打造的星際爭霸 AI ▼

這幾年,針對星際爭霸、Dota 2等不同遊戲的 AI 不斷出現,當然,王者絕悟也是其中之一。

說起來大家可能會覺得驚訝, 但王者榮耀這樣的遊戲中,玩家的動作狀態空間能高達 10 的 20000 次方,遠遠超過宇宙原子總數的 10 的 80 次方。

在如此浩瀚的運算空間裏,要做出王者絕悟那樣高效準確的決策,可想而知這挑戰有多大。

基於王者絕悟的研究方法和經驗, 王者榮耀和騰訊 AI Lab 還搞了一個 AI 開放研究平臺 -- 開悟。

最近,騰訊舉辦了一個名爲 " 開悟多智能體強化學習大賽 " 的活動,並邀請國內包括北大、清華、中科大等二十餘所國內外頂尖院校的學霸們參加比賽。

簡單來說, 這個比賽就是要求高校師生訓練出一個屬於自己的 mini 版 " 絕悟 " ,然後導入王者榮耀一決高下。

在比賽中,各大高校的教授和學霸們會利用開悟平臺研究如何用算法解決單、多智能體解決方案,模型結構設計,強化學習算法設計、獎勵函數設計等問題。

比賽模式包括1v1墨家機關道、3v3長平攻防戰,規則與我們玩家在王者榮耀日常接觸到的一樣,最先推倒對方水晶的一方獲勝。

今年已經是第二屆比賽了,去年第一屆賽程還使用過5v5 夢境大亂鬥,冠軍被中科大收入囊中。

肯定有差友好奇,AI 到底怎麼經過自我博弈,最終學會玩王者榮耀的?

那給大家看看魯班七號AI 的進化之路,我們以訓練 10 分鐘,1小時,12小時爲節點,分別看看 AI 的水平有怎樣的變化。

(下方動圖裏,左上角能看小地圖,會顯示紅藍雙方的位置)

這個是訓練了 10 min 的 AI,可以說這時候的 AI 菜得摳腳,彷彿完全不知道要做啥。。。

10min AI ▼

對戰開始,紅藍兩方的小魯班 AI 出了塔之後都非常迷茫,一臉的 "我是誰?我在哪?",兜兜轉轉瞎溜達,技能也在瞎放。

迷糊了兩分鐘,藍方的小魯班才跌跌撞撞走到了兵線附近。(左上角能看到紅方還在迷茫中。。。)

這時藍方魯班發現,站在兵線前隨意的平A 就可以獲得金錢的獎勵。

並且紅方一直沒出水晶,藍方連 2、3 技能都沒按出來,就已經鎖定勝局。

有意思的是,這時候魯班雖然不知道主動進攻,卻知道抗塔會掉血,看來以前經歷過不少教訓。

據我猜測,通過這一局 AI 就會知道,走中間有兵線的地方平 A 就能得到經濟。

那麼 AI 經過 1h 的對戰訓練後,水平又如何了呢?

1h AI ▼

戰局一開始,紅藍兩方都開始跌跌撞撞往中間走,看來 AI 已經知道了中間兵線有經濟。

紅藍相見分外眼紅,直接硬剛,藍方險勝。

看來此時 AI 還沒學會血量少的時候要苟一下,只知道拿下對方人頭就可以獲得經濟。

訓練了 1 小時的 AI 終於知道放特殊技能了,可惜技能 2 和技能 3 基本就是瞎按,沒有一星半點的準頭。。。

不過相對於 10min 的版本,還是有不小的進步~

最終藍方堅定的在小兵的掩護下推了塔,儘管紅方也知道守塔,顯然大勢已去,無能爲力了。

那訓練了12 小時的 AI 會怎樣呢?

對戰開始,紅藍雙方迅速在兵線附近狹路相逢,二話不說上來就對噴。

12h AI ▼

藍方因爲靠小兵太近,中間不小心火力被兵線吸引了一下,被紅方取得優勢。

這時大家會發現 這時的 AI 已經學會在血量較少的時候後撤,可惜在邊退邊戰的時候被噴死了。

繼續觀看比賽,發現 AI 還學會了在血量少的時候舔血包,甚至懂得回家加血!

藍方魯班舔血包 ▼

紅方魯班缺血後回家補血

滿血後回來反殺 ▼

而且,魯班的 2 技能的準確率也直線上升,3 技能也知道要在兵線和敵方身前釋放。

所以,雖然看起來這個訓練了 12 小時的 AI 動作還是蠢萌蠢萌的,跟人類比起來意識也不行,可是相比較於只學習了 10 分鐘的 AI 強多了。

這就是強化學習 AI 的厲害之處,只要規劃合理,繼續訓練就會變得越來越厲害,直到無法成長。

而學生需要做的就是:優化算法,提高 AI 的上限,縮短 AI 的成熟路徑。

紙上讀來終覺淺,其實這種算法、模型,只有自己親身去實踐,才能知道書本上的公式和理論是如何在真實世界中發揮作用。

爲了讓學生好好比賽,王者榮耀和騰訊 AI Lab 把一切都包圓了。

需要算力?直接開放雲平臺,只需要上傳模型,睡一覺就練好;想覆盤模型好壞?模型的對戰形成的錄像隨便觀看;比賽的底層信息太雜了?直接把遊戲場景和英雄行爲打包成數據接口,直接調用就成……

估計很多人好奇了,這種比賽有什麼意義麼?

想當初, AlphaGo 在圍棋界大殺四方時,有人不屑的表示,只會下棋的AI 能有什麼用?

但 4 年後,它的後輩 Alpha Fold 便在 CASP 蛋白質結構預測比賽上,解決困擾了人類 50 年來的蛋白摺疊問題。

很多人評價說這是能與諾貝爾獎齊名的成就,因爲它可以從根本上改變很多生物學的研究方式。

Alpha Fold 在預測蛋白質如何摺疊上準確的離譜,準到大家不敢相信這是真的。

在下面的動圖裏,綠色是實驗測量得出的蛋白質結構,藍色是 Alpha Fold 的預測結果,兩個蛋白質樣本的實驗結果和預測結果幾乎重合。

人們原本預估能達到這種準確率的方法要幾十年後纔會面世。

但是它就這麼突然出現了,就像當年的AlphaGo 一樣。

這是偶然麼?或許這也是必然。

當年研究AlphaGo 積攢的人才、經驗和學術成就,讓Alpha Fold 的研究如虎添翼,而現在他們已經盯上天體物理、計算化學等基礎科學領域。

人們這幾年瘋狂刷 " ImageNet " 圖像識別準確率、參加 Kaggle 機器學習比賽,不斷互相競爭和學習,把圖像處理、機器學習推向高峯,我們生活中接觸到的面部識別、AI 捏臉等都沾了這些成果的光。

現在問題來了,AI 學會打遊戲有什麼意義呢?

其實王者絕悟、星際爭霸 AI 背後遇到的技術難題,包括不完全信息、多智能體協同策略等等,其中得到經驗和方法,沒準也可以在未來的醫療、智能工業、自動駕駛、智慧城市等領域得到應用。。。

舉個例子,如果把每個紅綠燈都看作一個智能體,那麼這些紅綠燈應該怎麼配合才能讓車流更加順暢,減少交通堵塞?

雖然這看起來和王者榮耀的場景並不一樣,但實際上解決起來 背後的算法是互通的,就是協同策略的問題。

我們又知道,評價 AI 算法優劣是很困難的一件事。

譬如我們要驗證自動駕駛技術,如果我們一開始就造個車或者造個真實場景來驗證,成本很大,很浪費。

B站@XuDongLiang_自制自動駕駛AI ▼

在遊戲上驗證,研究員們就可以專心研究算法,而不用糾結平臺的建造和成本問題。

果要評價遊戲對於 AI 研究的意義,舉個類似的感覺,就像是果蠅對於生物研究的意義,因爲它們都是成本低廉且便捷的。

同時,AI 研究領域也有個說法 " 下一個 AI 里程碑,可能會在複雜策略遊戲中誕生 "。

爲了搶佔先機,世界頂尖的科技公司都在探索相應的技術,讓 OpenAI一炮而紅的 OpenAI Five、DeepMind 的星際爭霸 AI AlphaStar、連 Facebook 也在打造 AI CherryPi,當然也包括騰訊的王者絕悟。

論文中王者絕悟的訓練模型 ▼

而王者榮耀和騰訊AI Lab合作搭建的開悟平臺,爲國內AI學術界提供了一個試驗場,讓國內高校也能在複雜策略遊戲中開展研究。

將來,開悟還要和北大、中科大等高校一起開發 AI 課程。

按照王者榮耀執行製作人、騰訊天美L1總經理黃藍梟的話來說,他們爲此開放了《王者榮耀》的核心機制,提供標準接口、核心算法、脫敏的測試數據、評估工具和計算集羣等,給高校師生進行多智能體的機器學習算法研究、學習成果交流、對算法成果反覆迭代升級提供便利條件。

遊戲和學習相結合,早幾年有這好事兒估計鯽魚也是 AI 研究員了。。。

也許,現實社會中的問題比遊戲中的要複雜的多,但我們想要在這個領域獲得突破,就少不了一步一個腳印的去積累,去成長。

去年跟王者絕悟死磕到底的我,現在也可以驕傲的說一聲,當年咱也是參加過全民級 AI 研究的人~

相關文章