原標題:人工智能進行時-王者榮耀助力產學研 共享AI新生態

生物的進化的速度要以百萬年的時間來計算,而人工智能卻在以肉眼看得見的速度進化。

半個世紀前,人類需要使用一部重達1270公斤的電腦對抗國際象棋大師時,不會想到在半個世紀後的王者榮耀中,AI可進化至職業電競水平,這就是王者榮耀的AI--「絕悟」,「絕悟」從離線的玩家對局樣本進行模仿學習,爲了突破上限,又採用了AI自對弈的強化學習,然後在"絕悟挑戰"中測試強度。

王者榮耀執行製作人,騰訊天美L1工作室總經理黃藍梟在首屆STAC科創聯合大會上表示,「絕悟」是一個多智能體系統,也就是大量的能夠自主決策的AI共同協作,從而實現一個共同的且有挑戰的目標。

更爲重要的是,王者榮耀團隊開放了王者的核心機制,同騰訊AI Lab、相關高校、研究機構一起進行多智能體的研究。"期待這些研究成果,能夠落地到其他產業環境中,爲工業機器人、救災機器人等提供助力"。

在王者榮耀中做前沿AI研究

多智能體系統(大量的能夠自主決策的AI共同協作,達成同一個目標)作爲前沿人工智能技術的核心研究領域,經過多年的研究,已經廣泛應用於各個行業。比如無人倉儲,多智能體機器人完成龐大的倉儲管理;智慧交通中的車路協同系統,無人駕駛;智能工業機器人、物聯網等領域。多智能體技術都能夠很好的應用下來提高生產效率。

王者榮耀團隊在遊戲研發過程中,發現MOBA遊戲機制具有很強的多人協作性、在不對稱信息下博弈空間極大、協作競技性很強,非常適合使用多智能體人工智能技術來提高生產和測試效率。

例如王者榮耀產品中的視野非全局性,敵我雙方的實時位置、狀態能信息非理想透明,遊戲測試環境中能提供豐富的數據,模擬的場景,爲研究模仿學習提供了保障;天然的層次結構,在high level中對應大局觀,在 low level中對應了微操,適合層次強化學習研究。

若AI技術能在如此複雜的環境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、複雜的真實環境中發揮更大作用。

在這樣的背景之下,基於王者榮耀遊戲的特點,王者榮耀團隊與騰訊AI Lab一起合作,在王者持續進行人工智能相關的技術研究和應用實踐,研究並開發出了多智能體產品「絕悟」。

讓AI學像人一樣決策

「絕悟」名字寓意絕佳領悟力,其技術研發始於2017年,並在2018年12月通過了頂尖業餘水平測試。

2019年8月2日在吉隆坡舉辦的王者榮耀冠軍盃半決賽的特設環節中,「絕悟」在職業選手賽區聯隊帶來的5v5水平測試中獲勝,升級至王者榮耀電競職業水平。

而同期「絕悟」的 1v1 版本也在上海舉辦的國際數碼互動娛樂展覽會ChinaJoy首次對公衆亮相,向頂級業餘玩家開放爲期四天的體驗測試。四天的共2100場測試中,「絕悟」測試勝率爲99.81%,僅輸4場。

專業描述AI打王者榮耀的場景爲--非完全信息多智能體協同零和即時博弈。通俗的講就是, AI 要在不完全信息、高度複雜度的情況作出複雜快速的決策。

在龐大且信息不完備的地圖上,10位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇,這帶來了極爲複雜的局面,預計有高達10的20000次方種操作可能性,而整個宇宙原子總數也只是10的80次方。

「絕悟」可以無需人類數據,從白板學習(Tabula Rasa)開始, 自己與自己對戰。 像嬰兒學語般,一點點學會了打王者榮耀。更驚喜的是,在訓練後期AI 甚至探索出了不同於人類常規做法的全新策略。"比如「絕悟」經常多人抱團喫線,從而達到經濟的最大化"。

在王者本身的實踐層面,玩家可以在限時開放的「絕悟」挑戰中體驗AI的能力,而當遭遇隊友掉線時,也可以將掉線隊友委託給AI託管,但AI不能主導比賽,勝負的決定權還是在各位玩家手中,除此之外,「絕悟」僅在實驗室環境中投入使用。

在新英雄設計與遊戲數值調整中,「絕悟」也發揮了重要作用,提供AI最終探索出的遊戲打法和勝率作爲參考,輔助策劃優化遊戲設計。

2020年11月的一次平衡調整,王者團隊希望增強公孫離的強度,「絕悟」對調整後的公孫離進行了模擬對戰,顯示改動後勝率+2.42個百分點,但部分體驗服玩家卻認爲會嚴重削弱公孫離。對此,王者團隊對調整項拆分和放大場次驗證,分析每一條改動對強度的貢獻佔比,確認相關平衡調整會加強公孫離,最終上線後,公孫離勝率+2.33個百分點,符合預期。

從「絕悟」到開放的「開悟」

在經過實踐驗證後,王者榮耀與騰訊AI Lab團隊將在做多智能體研究的過程中所沉澱的技術資產開放出來,建設開悟開放平臺,打造利用王者的核心技術構建的,對使用者低成本的多智能體人工智能算法研究、教學和驗證的科研教學平臺。

"我們開放了王者的核心機制,提供標準接口、核心算法、脫敏的訓練數據、評估工具和計算集羣等,給老師和同學們進行多智能體的機器學習算法研究、學習成果交流、對算法成果反覆迭代升級。未來也可以提供給其他有需求的研究機構進行更貼近工業化場景的研究。"王者榮耀執行製作人,騰訊天美L1工作室總經理黃藍梟表示。

2020年,王者榮耀聯合騰訊AI Lab、騰訊高校合作、騰訊遊戲學院舉行了首次「王者榮耀·開悟AI+遊戲大賽」,邀請了中科院、清華大學、北京大學、中國科技大學、電子科技大學、哈工大、國防科大、浙大等18所頭部高校的老師和同學們,在開悟平臺上進行學術研究和交流,並提供全方位資源支持。

"要讓多個智能體學會合作是很困難的,既要設定各個智能體的目標,還要分出主力和輔助關係,實現這樣的複雜設計成本很高。"中國科學院自動化研究所興軍亮團隊提出了一種自我提升式強化學習框架,先讓智能體通過模仿來學習,再通過自我互博來進階進化,加上他們提出的一種新策略,可有效緩解一些多智能學習的常見問題。

經過一年時間的實踐,活動得到很好的成果,驗證了王者榮耀遊戲環境對人工智能技術的賦能思路。

助力產學研,共享AI+遊戲新生態

王者榮耀執行製作人,騰訊天美L1工作室總經理黃藍梟在首屆STAC科創聯合大會上宣佈"多智能體人工智能科研教學聯盟"的成立,將與國內頭部高校一起共建平臺,爲更多高校老師和同學們賦能,爲有興趣進行包括多智能體技術在內的人工智能研究的老師們、同學們和產業夥伴們提供低門檻、內容豐富且穩定可靠的學術研究和交流的場景。

騰訊 AI Lab 總經理楊巍表示:"開悟2021年還將向全球高校開放,拓展國際影響力,進一步延展平臺承載力,推進AI與教育融合,提高學生的創造力與研究才能,爲生態貢獻跨學科技術、跨界人才和多方資源。"

騰訊遊戲副總裁、騰訊遊戲學院院長夏琳表示:"人工智能是國家的重大戰略,騰訊遊戲學院與各高校深度產教融合,並側重培養AI+遊戲的新興科技人才。同時,聚焦王者榮耀等遊戲AI領域的科研,與國內外重點高校及國家重點實驗室不斷產出對產業有價值的科研成果,人工智能在國內會不斷發展,未來可期。"

在這個人類與技術相互擁抱的時代,王者榮耀不斷投入,讓AI從0到1去學習進化,並發展出一套合理的行爲模式,這中間的經驗、方法與結論,短期看,可以給遊戲行業、電競行業帶來直接的推動和幫助,有望在大範圍內,如醫療、製造、無人駕駛、農業到智慧城市等領域帶來更深遠影響。長期來看,AI+遊戲的研究,會推進AI的終極目標--通用人工智能問題的探索和發展。

相關文章