"\u003Cdiv\u003E\u003Cp class=\"ql-align-center\"\u003E​\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F1e01b3f9cdd742c18c80d7a57109ef6f\" img_width=\"881\" img_height=\"428\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E【新智元導讀】\u003C\u002Fstrong\u003E騰訊AI Lab研發的智能體「絕悟」在王者榮耀世界冠軍盃,與職業選手5v5的對決中獲勝!絕悟達到了電競職業玩家水平!這是繼dota2、英雄聯盟後,王者榮耀也被AI征服。新智元第一時間帶來賽事精彩解說,以及對絕悟團隊的專訪。\u003C\u002Fp\u003E\u003Cp\u003E繼dota2、英雄聯盟後,王者榮耀也被AI征服了!\u003C\u002Fp\u003E\u003Cp\u003E昨日,騰訊AI Lab研發的智能體「絕悟」在王者榮耀世界冠軍盃半決賽特設環節,與職業選手職業選手賽區聯隊的5v5對決中獲勝!\u003C\u002Fp\u003E\u003Cp\u003E可以說,AI已經達到了電競職業玩家水平了!\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E「絕悟」職業水平測試完整視頻(從 3 分 55 秒開始)\u003C\u002Fp\u003E\u003Cp\u003E據瞭解,「絕悟」訓練使用\u003Cstrong\u003E384塊GPU,8.5w核CPU\u003C\u002Fstrong\u003E,平均每天自對戰局數相當於人類訓練440年的量,訓練週期持續訓練半個月以上。\u003C\u002Fp\u003E\u003Cp\u003E不僅如此,「絕悟」的 1v1 版本今天也在上海舉辦的國際數碼互動娛樂展覽會ChinaJoy首次對公衆亮相,向頂級業餘玩家開放爲期四天的體驗測試。\u003C\u002Fp\u003E\u003Cp\u003E在首日的504場測試中,\u003Cstrong\u003E「絕悟」測試勝率爲99.8%,僅輸1場(對方爲王者榮耀國服第一後裔)\u003C\u002Fstrong\u003E。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E賽事精彩瞬間:即時策略+團隊協作,四個AI拿下完美首殺\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E「絕悟」建立了基於 “\u003Cstrong\u003E觀察 - 行動 - 獎勵\u003C\u002Fstrong\u003E” 的深度強化學習模型,無需人類數據,從白板學習(Tabula Rasa)開始,讓 AI 自己與自己對戰,\u003Cstrong\u003E一天的訓練強度高達人類 440 年\u003C\u002Fstrong\u003E。\u003C\u002Fp\u003E\u003Cp\u003EAI 從 0 到 1 摸索成功經驗,勤學苦練,既學會了如何站位、打野、輔助保護和躲避傷害等遊戲常識。\u003C\u002Fp\u003E\u003Cp\u003EAI 也探索出了\u003Cstrong\u003E不同於人類常規做法的全新策略\u003C\u002Fstrong\u003E。團隊還創建 One Model 模型提升訓練效率,優化通信效率提升 AI 的團隊協作能力,使用零和獎懲機制讓 AI 能最大化團隊利益,使其打法果斷,有舍有得。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F37f7dd03d5f349e9b5a515590f3f0475\" img_width=\"300\" img_height=\"227\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E探索全新策略:\u003C\u002Fstrong\u003E開局時「絕悟」沒選擇傳統人類對線走位策略,而是由雙 C 位英雄虞姬和王昭君先一起清理中路第一波兵線,壓制敵方中輔。之後又轉上路壓制曹操血線。=\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F7a67b216f59f4ac2a071b0ffc069c7b2\" img_width=\"402\" img_height=\"304\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E長線策略:\u003C\u002Fstrong\u003E對線期,賽區聯隊三人壓迫下路,「絕悟」果斷選擇用三個 AI 反壓賽區聯隊的上路,最終雙方互換一塔,維持均勢。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F94f94ced8e344393b7f2c8757aa79f72\" img_width=\"432\" img_height=\"326\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E團隊協作:\u003C\u002Fstrong\u003E比賽中期,「絕悟」四人追擊娜可露露,AI 達摩一腳將娜可露露反踢入 AI 羣中,再由四個 AI 完美配合拿下自己的首殺。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F3913da30592448c08692beb0e25cc144\" img_width=\"312\" img_height=\"236\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E即時策略:\u003C\u002Fstrong\u003E一對一時,賽區聯隊實力較強的曹操追擊「絕悟」虞姬,虞姬在殘血狀態退至高地。看到曹操抗塔血量大減後,把握機會絕地反殺。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fd4f3d5d553eb430592f8968fe90b6da5\" img_width=\"324\" img_height=\"245\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002F0713027c3a0543f6b0ea221f2961a967\" img_width=\"348\" img_height=\"263\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E即時策略 + 團隊協作:\u003C\u002Fstrong\u003E比賽後期在賽區聯隊的上路高地塔團戰,AI 王昭君先手被對方秒殺,「絕悟」果斷選擇反打,以漂亮的一波團戰全殲對手。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F0896005d25e74906a633858a48407156\" img_width=\"390\" img_height=\"294\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E即時策略 + 團隊協作:\u003C\u002Fstrong\u003E在賽區聯隊全隊覆滅後, 「絕悟」的兵線尚未到達,下路高地塔還有過半血量,「絕悟」果斷選擇四人輪流抗塔,無兵線強拆塔。* 注:賽事尾聲,賽區聯隊團滅後,「絕悟」未直接推水晶,而是計算整體收益後,選擇先推最後一個高地塔,再推水晶直至勝利。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E 技術細節:“觀察 - 行動 - 獎勵” 的深度強化學習模型\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E 「絕悟」名字寓意絕佳領悟力,其技術研發始於 2017 年 12 月,並在 2018 年 12 月通過了頂尖業餘水平測試(前職業選手與主播聯隊帶來)。\u003C\u002Fp\u003E\u003Cp\u003E遊戲中測試的難點,是 AI 要在不完全信息、高度複雜度的情況作出複雜快速的決策。在龐大且信息不完備的地圖上,10 位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇,這帶來了極爲複雜的局面,預計有高達 10 的 20000 次方種操作可能性,而整個宇宙原子總數也只是 10 的 80 次方。\u003C\u002Fp\u003E\u003Cp\u003E若 AI 能在如此複雜的環境中,學會人一樣實時感知、分析、理解、推理、決策到行動,就可能在多變、複雜的真實環境中發揮更大作用。因此業界認爲下一個 AI 里程碑,可能會在複雜策略遊戲中誕生。世界頂級科技公司均在推進此類研究,如 Google Deepmind(星際爭霸 2)、Facebook(星際爭霸 2) 及 Open AI(Dota 2)等。\u003C\u002Fp\u003E\u003Cp\u003E騰訊 AI Lab 從2016年開始研究此類智能體。2016 年起,研發的圍棋 AI “絕藝”(Fine Art),現擔任中國國家圍棋隊訓練專用 AI ;2017 年,啓動「絕悟」研發;2018 年,「絕悟」 達到業餘頂尖水平。現在,\u003Cstrong\u003E「絕悟」終於達到了電競職業玩家水平!\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E而長期應用上,「絕悟」將是騰訊攻克 AI 終極研究難題 —— 通用人工智能的關鍵一步。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E絕悟是如何煉成的?新智元專訪騰訊AI團隊\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E賽後,新智元第一時間採訪了騰訊AI Lab的“絕悟”團隊,爲我們揭曉制霸王者榮耀的“絕悟”是如何煉成的。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fdfic-imagehandler\u002Fa6baf259-46bf-4f17-b25b-ba6ce37f0fde\" img_width=\"1200\" img_height=\"801\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:“絕藝”是圍棋AI,“絕悟”爲什麼選擇“王者榮耀”這個遊戲?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊:\u003C\u002Fstrong\u003E首先,王者榮耀在設計上的高複雜度、高挑戰性,滿足了對高水平遊戲AI的研究需要;第二,王者榮耀是一個公平競技的遊戲環境,能測試出AI與職業選手的水平差距;第三,王者榮耀很早就與我們確定了聯合研究意向,提供了運行遊戲的測試環境,幫助搭建和開發獨立的研究平臺,極大提升了我們的研究效率;最後,這款遊戲的玩家數量衆多,口碑很好,能更好幫助普及和推廣AI的研究成果,推進技術進步。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:「絕悟」版本建立了基於“觀察-行動-獎勵”的深度強化學習模型,這個模型是如何訓練出來的,訓練了多久,用了多少計算資源?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊:\u003C\u002Fstrong\u003E與去年12月的版本相比,此次達到職業水平的「絕悟」是完全使用深度強化學習模型,無需人類數據,從白板學習(Tabula Rasa)開始,讓 AI 自己與自己對戰,一天的訓練強度高達人類 440 年。AI 從0到1摸索成功經驗,勤學苦練,既學會了如何站位、打野、輔助保護和躲避傷害等遊戲常識。更驚喜的是,AI 也探索出了不同於人類常規做法的全新策略。(具體可見動圖分析)\u003C\u002Fp\u003E\u003Cp\u003E這個版本經過了幾次大的迭代到達目前水平,「絕悟」訓練使用\u003Cstrong\u003E384塊GPU,8.5w核CPU\u003C\u002Fstrong\u003E,平均每天自對戰局數相當於人類訓練440年的量,訓練週期持續訓練半個月以上。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fdfic-imagehandler\u002F2f0c5312-e629-4ac4-9fef-5d00921a9643\" img_width=\"1200\" img_height=\"816\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家,1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:團隊還創建One Model模型提升訓練效率,“One Model模型”是怎樣的,如何能夠提升訓練效率?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊:\u003C\u002Fstrong\u003E我們創造了一個統一模型,讓每個英雄的訓練都使用這個模型,這樣就比每個英雄用不同模型要能極大提升訓練效率。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:跟DeepMind的AlphaStar相比,「絕悟」有什麼特殊的地方?王者榮耀和星際爭霸這兩個遊戲,AI需要解決的問題有什麼異同?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊:\u003C\u002Fstrong\u003E遊戲其實是對真實世界的一種模擬,一種只有一個具體目標的模擬,這正是人工智能學習的絕佳試驗場。但我們的目標從來不只是遊戲 AI ,而是希望 AI 在學習如何做上千個小決定後來達成更大的終極目標。\u003C\u002Fp\u003E\u003Cp\u003E我們的長期研究目標從未改變:「絕悟」將是騰訊攻克 AI 終極研究難題——通用人工智能的關鍵一步。AGI 代表研發能在通用系統中執行多種複雜命令,達到或超越人類水平的 AI ,從「絕藝」到「絕悟」,不斷讓 AI 從0到1去學習進化,並發展出一套合理的行爲模式,這中間的經驗、方法與結論,長期來看,有望在大範圍內,如醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:你們的團隊多少人在做「絕悟」,跟「絕藝」是同個團隊嗎?8個月的時間勝率從48%提高到99.8%,你們做了哪些優化?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊:\u003C\u002Fstrong\u003E是長期致力於遊戲AI和多智能體研究的團隊,部分成員來自圍棋AI 「絕藝」的團隊。「絕悟」的研發是算法+算力高度結合,需要極致優化的算力平臺和持續改進的優化算法,綜合了AI Lab的科研與工程人才資源,還聯合了我們所在的騰訊技術與工程事業部(TEG)旗下基礎架構平臺部人才。主要工作包括模型、特徵、算力、數據的優化,機器虛擬化、搭建和優化數據處理、並行計算和機器學習訓練的平臺。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:「絕悟」無需人類數據,從白板學習開始,那麼它的策略和人類相比有什麼異同,從中可以發現什麼?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E我們使用零和獎懲機制讓 AI 能最大化團隊利益,使其打法果斷,有舍有得。我們發現 AI 探索出了一些全新策略,並非常見和傳統的打法。比如:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E非傳統對線走位\u003C\u002Fstrong\u003E,AI經常從經濟最大化角度選用此策略。比如此次測試中,開局時「絕悟」沒選擇傳統人類對線走位策略,而是由雙C位英雄虞姬和王昭君先一起清理中路第一波兵線,壓制敵方中輔。之後又轉上路壓制曹操血線。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E果斷取捨\u003C\u002Fstrong\u003E:比如人類打龍時,兵線在 AI 方,AI 會放棄搶龍,放棄兵線優勢,直接推高地塔。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元:你們下一步的計劃是什麼?\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊:\u003C\u002Fstrong\u003E研究上,短期仍希望能將 AI 的策略協作提升到極致水平。具體的測試形式仍在探討中。長期的研究目標從未改變:“絕悟”將是騰訊攻克 AI 終極研究難題——通用人工智能的關鍵一步。AGI 代表研發能在通用系統中執行多種複雜命令,達到或超越人類水平的 AI ,從「絕藝」到「絕悟」,不斷讓 AI 從0到1去學習進化,並發展出一套合理的行爲模式,這中間的經驗、方法與結論,長期來看,有望在大範圍內,如醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6720794864939696652
相關文章