摘要:從最早的AI(人工智能)在國際象棋中戰勝人類開始,中國象棋、德州撲克、圍棋等智力遊戲相繼淪陷,在DOTA、星際爭霸等電子遊戲中也表現亮眼,但是AI在麻將領域卻一直沒有突破。近日,微軟發佈了一份關於麻將AI“Suphx(意爲Super Phoenix,超級鳳凰)”的修訂版預印本文件,介紹說Suphx是一個專業十段水平的“選手”,超越了99%人類玩家,這是計算機程序首次超過麻將中大多數頂級人類玩家。

從最早的AI(人工智能)在國際象棋中戰勝人類開始,中國象棋、德州撲克、圍棋等智力遊戲相繼淪陷,在DOTA、星際爭霸等電子遊戲中也表現亮眼,但是AI在麻將領域卻一直沒有突破。

近日,微軟發佈了一份關於麻將AI“Suphx(意爲Super Phoenix,超級鳳凰)”的修訂版預印本文件,介紹說Suphx是一個專業十段水平的“選手”,超越了99%人類玩家,這是計算機程序首次超過麻將中大多數頂級人類玩家

麻將AI,擁有強大算力遠遠不夠

據這份公開資料顯示,Suphx於2019年3月登陸日本專業的麻將競技平臺Tenhou(天鳳),在短短几個月內,Suphx在該平臺上與人類選手展開了5000餘場四人麻將對局,達到了十段,這是目前爲止,世界上第一個也是唯一一個達到10段水平的人工智能。

據悉,天鳳是世界上最大的麻將社區之一,擁有超過35萬活躍用戶,其中不乏大量的專業麻將選手。天鳳平臺自2006年推出以來,四人麻將達到過十段的選手約有180位,而現役的十段人類選手也不過十幾位。

麻將被稱爲不完全信息博弈,每位玩家手中最多有13張別人不可見的牌。牌牆中的14張牌對所有玩家都不可見。此外,牌桌中央還有70張牌。只有被玩家打出時,這部分牌纔可見。

雖然136張麻將的排列組合結果和圍棋相比要小得多,但難點在於同一玩家兩次出牌之間,夾雜了其他3位玩家的出牌、自己的摸牌,而且還有“喫、碰、槓”都會讓牌局產生動態變化。

在這種規則下,玩家每做出一個選擇,接下來的牌局就可能出現10個以上的走向。

另外,麻將遊戲的“胡牌”方式非常多。因此,想要打造一個高手麻將AI,只有強大的算力是不夠的,更需要讓AI具有直覺、預測、推理和模糊決策的能力,這也正是建立麻將人工智能模型的難點所在

Suphx的決策流程及模型架構。

十段功力究竟是怎麼修煉的

那麼,Suphx是怎麼解決這些問題,從而戰勝人類的呢?

據介紹,開始階段研究員們利用天鳳平臺的公開數據得到一個初始模型,並在模型基礎上用自我博弈的方式進行強化學習訓練。研究員開發了丟牌模型、立直模型、喫牌模型、碰牌模型以及槓牌模型等五大模型,專門訓練“超級鳳凰”的打牌策略。

這五大模型都基於深度殘差卷積神經網絡,並一一應對麻將複雜的決策類型。甚至,Suphx還有一個基於規則的贏牌模型,決定在可以贏牌的時候要不要贏牌。

隨後,針對非完美信息博弈的挑戰,Suphx創新性地嘗試了先知教練技術來提升強化學習的效果。

最後,再針對麻將複雜的牌面表達和計分機制,研究團隊利用全盤預測技術搭建起每局比賽和8局終盤結果之間的橋樑。

這個預測器通過精巧的設計,可以理解每局比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一局比賽中,以便對自我博弈的過程進行更加直接有效的指導,並使得Suphx可以學會一些具有大局觀的高級技巧。

智力遊戲是AI研究者的最佳實驗田

從最早的AI在國際象棋中戰勝人類開始,AI先後攻克了中國象棋、德州撲克、圍棋、DOTA、星際爭霸等多種遊戲,爲什麼AI研究者都喜歡挑戰遊戲領域呢?

在去年的世界人工智能大會上,時任微軟全球副總裁的沈向洋表示,遊戲一直是人工智能研究的最佳試驗田,訓練遊戲AI的過程可以不斷提升人工智能的算法和人工智能處理複雜問題的能力。

在現實世界中,金融市場預測、物流優化等很多問題與麻將遊戲有着相同的特點,包括複雜的操作、獎勵規則、信息的不完全性等。

浙江大學人工智能研究所所長吳飛也表示,很多AI的研發都是針對某個領域或某個具體任務進行的研究,這些AI誕生的目的當然不僅僅在某個遊戲勝過人類這麼簡單,都是爲了應用到我們實際生活中去。

吳飛告訴記者:“微軟這款麻將AI所採取的策略其實和圍棋當中的Alphago是類似的,框架還是基於強化學習、深度學習和蒙特卡洛樹搜索。只不過它是針對麻將這個具體問題進行優化,如針對麻將中不同出牌的策略專門進行學習。

在吳飛看來,AI戰勝人類在大部分棋牌類遊戲中都可以實現,但這不代表現在的AI就比人類厲害了,因爲人類行爲不是單一問題的集合,實際的應用場景比遊戲要複雜得多。

“比如現在大家關注度比較高的自動駕駛、城市大腦,這些場景更加複雜,沒有足夠多的數據,也沒有足夠準確的機器語言去描述,因此目前的人工智能在實際使用中還很侷限。不過這類AI的出現對我們解決序貫決策問題還是很有幫助的,比如對經濟活動調整的預測和分析,來幫助經營者作出更好的決策;在交通、物流領域進行效率優化、降低成本提高收益等。”

相關文章