騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年

"\u003Cdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F1e01b3f9cdd742c18c80d7a57109ef6f\" img_width=\"881\" img_height=\"428\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E【新智元導讀】\u003C\u002Fstrong\u003E騰訊AI Lab研發的智能體「絕悟」在王者榮耀世界冠軍盃，與職業選手5v5的對決中獲勝！絕悟達到了電競職業玩家水平！這是繼dota2、英雄聯盟後，王者榮耀也被AI征服。新智元第一時間帶來賽事精彩解說，以及對絕悟團隊的專訪。\u003C\u002Fp\u003E\u003Cp\u003E繼dota2、英雄聯盟後，王者榮耀也被AI征服了！\u003C\u002Fp\u003E\u003Cp\u003E昨日，騰訊AI Lab研發的智能體「絕悟」在王者榮耀世界冠軍盃半決賽特設環節，與職業選手職業選手賽區聯隊的5v5對決中獲勝！\u003C\u002Fp\u003E\u003Cp\u003E可以說，AI已經達到了電競職業玩家水平了！\u003C\u002Fp\u003E\u003Cp class=\"ql-align-center\"\u003E「絕悟」職業水平測試完整視頻（從 3 分 55 秒開始）\u003C\u002Fp\u003E\u003Cp\u003E據瞭解，「絕悟」訓練使用\u003Cstrong\u003E384塊GPU，8.5w核CPU\u003C\u002Fstrong\u003E，平均每天自對戰局數相當於人類訓練440年的量，訓練週期持續訓練半個月以上。\u003C\u002Fp\u003E\u003Cp\u003E不僅如此，「絕悟」的 1v1 版本今天也在上海舉辦的國際數碼互動娛樂展覽會ChinaJoy首次對公衆亮相，向頂級業餘玩家開放爲期四天的體驗測試。\u003C\u002Fp\u003E\u003Cp\u003E在首日的504場測試中，\u003Cstrong\u003E「絕悟」測試勝率爲99.8%，僅輸1場（對方爲王者榮耀國服第一後裔）\u003C\u002Fstrong\u003E。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E賽事精彩瞬間：即時策略+團隊協作，四個AI拿下完美首殺\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E「絕悟」建立了基於 “\u003Cstrong\u003E觀察 - 行動 - 獎勵\u003C\u002Fstrong\u003E” 的深度強化學習模型，無需人類數據，從白板學習（Tabula Rasa）開始，讓 AI 自己與自己對戰，\u003Cstrong\u003E一天的訓練強度高達人類 440 年\u003C\u002Fstrong\u003E。\u003C\u002Fp\u003E\u003Cp\u003EAI 從 0 到 1 摸索成功經驗，勤學苦練，既學會了如何站位、打野、輔助保護和躲避傷害等遊戲常識。\u003C\u002Fp\u003E\u003Cp\u003EAI 也探索出了\u003Cstrong\u003E不同於人類常規做法的全新策略\u003C\u002Fstrong\u003E。團隊還創建 One Model 模型提升訓練效率，優化通信效率提升 AI 的團隊協作能力，使用零和獎懲機制讓 AI 能最大化團隊利益，使其打法果斷，有舍有得。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F37f7dd03d5f349e9b5a515590f3f0475\" img_width=\"300\" img_height=\"227\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E探索全新策略：\u003C\u002Fstrong\u003E開局時「絕悟」沒選擇傳統人類對線走位策略，而是由雙 C 位英雄虞姬和王昭君先一起清理中路第一波兵線，壓制敵方中輔。之後又轉上路壓制曹操血線。=\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F7a67b216f59f4ac2a071b0ffc069c7b2\" img_width=\"402\" img_height=\"304\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E長線策略：\u003C\u002Fstrong\u003E對線期，賽區聯隊三人壓迫下路，「絕悟」果斷選擇用三個 AI 反壓賽區聯隊的上路，最終雙方互換一塔，維持均勢。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F94f94ced8e344393b7f2c8757aa79f72\" img_width=\"432\" img_height=\"326\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E團隊協作：\u003C\u002Fstrong\u003E比賽中期，「絕悟」四人追擊娜可露露，AI 達摩一腳將娜可露露反踢入 AI 羣中，再由四個 AI 完美配合拿下自己的首殺。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F3913da30592448c08692beb0e25cc144\" img_width=\"312\" img_height=\"236\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E即時策略：\u003C\u002Fstrong\u003E一對一時，賽區聯隊實力較強的曹操追擊「絕悟」虞姬，虞姬在殘血狀態退至高地。看到曹操抗塔血量大減後，把握機會絕地反殺。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fd4f3d5d553eb430592f8968fe90b6da5\" img_width=\"324\" img_height=\"245\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp class=\"ql-align-center\"\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002F0713027c3a0543f6b0ea221f2961a967\" img_width=\"348\" img_height=\"263\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E即時策略 + 團隊協作：\u003C\u002Fstrong\u003E比賽後期在賽區聯隊的上路高地塔團戰，AI 王昭君先手被對方秒殺，「絕悟」果斷選擇反打，以漂亮的一波團戰全殲對手。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F0896005d25e74906a633858a48407156\" img_width=\"390\" img_height=\"294\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E即時策略 + 團隊協作：\u003C\u002Fstrong\u003E在賽區聯隊全隊覆滅後，「絕悟」的兵線尚未到達，下路高地塔還有過半血量，「絕悟」果斷選擇四人輪流抗塔，無兵線強拆塔。* 注：賽事尾聲，賽區聯隊團滅後，「絕悟」未直接推水晶，而是計算整體收益後，選擇先推最後一個高地塔，再推水晶直至勝利。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E 技術細節：“觀察 - 行動 - 獎勵” 的深度強化學習模型\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E 「絕悟」名字寓意絕佳領悟力，其技術研發始於 2017 年 12 月，並在 2018 年 12 月通過了頂尖業餘水平測試（前職業選手與主播聯隊帶來）。\u003C\u002Fp\u003E\u003Cp\u003E遊戲中測試的難點，是 AI 要在不完全信息、高度複雜度的情況作出複雜快速的決策。在龐大且信息不完備的地圖上，10 位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇，這帶來了極爲複雜的局面，預計有高達 10 的 20000 次方種操作可能性，而整個宇宙原子總數也只是 10 的 80 次方。\u003C\u002Fp\u003E\u003Cp\u003E若 AI 能在如此複雜的環境中，學會人一樣實時感知、分析、理解、推理、決策到行動，就可能在多變、複雜的真實環境中發揮更大作用。因此業界認爲下一個 AI 里程碑，可能會在複雜策略遊戲中誕生。世界頂級科技公司均在推進此類研究，如 Google Deepmind（星際爭霸 2）、Facebook（星際爭霸 2）及 Open AI（Dota 2）等。\u003C\u002Fp\u003E\u003Cp\u003E騰訊 AI Lab 從2016年開始研究此類智能體。2016 年起，研發的圍棋 AI “絕藝”（Fine Art），現擔任中國國家圍棋隊訓練專用 AI ；2017 年，啓動「絕悟」研發；2018 年，「絕悟」達到業餘頂尖水平。現在，\u003Cstrong\u003E「絕悟」終於達到了電競職業玩家水平！\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E而長期應用上，「絕悟」將是騰訊攻克 AI 終極研究難題 —— 通用人工智能的關鍵一步。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E絕悟是如何煉成的？新智元專訪騰訊AI團隊\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E賽後，新智元第一時間採訪了騰訊AI Lab的“絕悟”團隊，爲我們揭曉制霸王者榮耀的“絕悟”是如何煉成的。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fdfic-imagehandler\u002Fa6baf259-46bf-4f17-b25b-ba6ce37f0fde\" img_width=\"1200\" img_height=\"801\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：“絕藝”是圍棋AI，“絕悟”爲什麼選擇“王者榮耀”這個遊戲？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊：\u003C\u002Fstrong\u003E首先，王者榮耀在設計上的高複雜度、高挑戰性，滿足了對高水平遊戲AI的研究需要；第二，王者榮耀是一個公平競技的遊戲環境，能測試出AI與職業選手的水平差距；第三，王者榮耀很早就與我們確定了聯合研究意向，提供了運行遊戲的測試環境，幫助搭建和開發獨立的研究平臺，極大提升了我們的研究效率；最後，這款遊戲的玩家數量衆多，口碑很好，能更好幫助普及和推廣AI的研究成果，推進技術進步。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：「絕悟」版本建立了基於“觀察-行動-獎勵”的深度強化學習模型，這個模型是如何訓練出來的，訓練了多久，用了多少計算資源？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊：\u003C\u002Fstrong\u003E與去年12月的版本相比，此次達到職業水平的「絕悟」是完全使用深度強化學習模型，無需人類數據，從白板學習（Tabula Rasa）開始，讓 AI 自己與自己對戰，一天的訓練強度高達人類 440 年。AI 從0到1摸索成功經驗，勤學苦練，既學會了如何站位、打野、輔助保護和躲避傷害等遊戲常識。更驚喜的是，AI 也探索出了不同於人類常規做法的全新策略。（具體可見動圖分析）\u003C\u002Fp\u003E\u003Cp\u003E這個版本經過了幾次大的迭代到達目前水平，「絕悟」訓練使用\u003Cstrong\u003E384塊GPU，8.5w核CPU\u003C\u002Fstrong\u003E，平均每天自對戰局數相當於人類訓練440年的量，訓練週期持續訓練半個月以上。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fdfic-imagehandler\u002F2f0c5312-e629-4ac4-9fef-5d00921a9643\" img_width=\"1200\" img_height=\"816\" alt=\"騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：團隊還創建One Model模型提升訓練效率，“One Model模型”是怎樣的，如何能夠提升訓練效率？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊：\u003C\u002Fstrong\u003E我們創造了一個統一模型，讓每個英雄的訓練都使用這個模型，這樣就比每個英雄用不同模型要能極大提升訓練效率。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：跟DeepMind的AlphaStar相比，「絕悟」有什麼特殊的地方？王者榮耀和星際爭霸這兩個遊戲，AI需要解決的問題有什麼異同？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊：\u003C\u002Fstrong\u003E遊戲其實是對真實世界的一種模擬，一種只有一個具體目標的模擬，這正是人工智能學習的絕佳試驗場。但我們的目標從來不只是遊戲 AI ，而是希望 AI 在學習如何做上千個小決定後來達成更大的終極目標。\u003C\u002Fp\u003E\u003Cp\u003E我們的長期研究目標從未改變：「絕悟」將是騰訊攻克 AI 終極研究難題——通用人工智能的關鍵一步。AGI 代表研發能在通用系統中執行多種複雜命令，達到或超越人類水平的 AI ，從「絕藝」到「絕悟」，不斷讓 AI 從0到1去學習進化，並發展出一套合理的行爲模式，這中間的經驗、方法與結論，長期來看，有望在大範圍內，如醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：你們的團隊多少人在做「絕悟」，跟「絕藝」是同個團隊嗎？8個月的時間勝率從48%提高到99.8%，你們做了哪些優化？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊：\u003C\u002Fstrong\u003E是長期致力於遊戲AI和多智能體研究的團隊，部分成員來自圍棋AI 「絕藝」的團隊。「絕悟」的研發是算法+算力高度結合，需要極致優化的算力平臺和持續改進的優化算法，綜合了AI Lab的科研與工程人才資源，還聯合了我們所在的騰訊技術與工程事業部（TEG）旗下基礎架構平臺部人才。主要工作包括模型、特徵、算力、數據的優化，機器虛擬化、搭建和優化數據處理、並行計算和機器學習訓練的平臺。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：「絕悟」無需人類數據，從白板學習開始，那麼它的策略和人類相比有什麼異同，從中可以發現什麼？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E我們使用零和獎懲機制讓 AI 能最大化團隊利益，使其打法果斷，有舍有得。我們發現 AI 探索出了一些全新策略，並非常見和傳統的打法。比如：\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E非傳統對線走位\u003C\u002Fstrong\u003E，AI經常從經濟最大化角度選用此策略。比如此次測試中，開局時「絕悟」沒選擇傳統人類對線走位策略，而是由雙C位英雄虞姬和王昭君先一起清理中路第一波兵線，壓制敵方中輔。之後又轉上路壓制曹操血線。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E果斷取捨\u003C\u002Fstrong\u003E：比如人類打龍時，兵線在 AI 方，AI 會放棄搶龍，放棄兵線優勢，直接推高地塔。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E新智元：你們下一步的計劃是什麼？\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E絕悟團隊：\u003C\u002Fstrong\u003E研究上，短期仍希望能將 AI 的策略協作提升到極致水平。具體的測試形式仍在探討中。長期的研究目標從未改變：“絕悟”將是騰訊攻克 AI 終極研究難題——通用人工智能的關鍵一步。AGI 代表研發能在通用系統中執行多種複雜命令，達到或超越人類水平的 AI ，從「絕藝」到「絕悟」，不斷讓 AI 從0到1去學習進化，並發展出一套合理的行爲模式，這中間的經驗、方法與結論，長期來看，有望在大範圍內，如醫療、製造、無人駕駛、農業到智慧城市管理等領域帶來更深遠影響。\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6720794864939696652

騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年

熱門新聞

週熱門

騰訊AI制霸王者榮耀世界盃絕殺職業玩家，1天訓練強度超人類440年

交銀國際：科技行業下半年AI主題或將繼續 半導體或持續分化

FTC盯上微軟！交易疑似繞開反壟斷審查

Salesforce擬在倫敦開設新的人工智能中心

Meta因使用個人數據訓練AI模型收到歐盟11起投訴

美國FTC調查微軟與AI初創公司Inflection的交易

美國財長耶倫：在金融體系中採用人工智能或帶來“重大風險”

行業巨頭強強聯手！英偉達與鴻海將建設先進計算中心

人工智能助力高考！廣東高考首次採用AI智能巡考

馬斯克確認xAI將在孟菲斯建全球最大超算

英偉達市值超過蘋果！什麼信號？

馬斯克的xAI擬在孟菲斯市建設超級計算工廠

Siri聯合創始人：蘋果與OpenAI合作可能只是短期至中期關係

騰訊 WeGame 單機遊戲業務將迎 8 週年，玩家可領取 10 元以上代金券

邊框窄至1.15mm！iPhone 16系列外觀揭曉：蘋果工業設計激進

曹操出行“猥褻乘客”背後涉訴近7000起 三年虧70億賬面僅5.8億靠借款運營

熱門新聞

週熱門

交銀國際：科技行業下半年AI主題或將繼續半導體或持續分化

曹操出行“猥褻乘客”背後涉訴近7000起三年虧70億賬面僅5.8億靠借款運營