"\u003Cdiv\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Cstrong\u003E點擊上方關注,All in AI中國\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F1839850a95974cdc80a8811ebd2579e8\" img_width=\"864\" img_height=\"539\" alt=\"AI玩德州撲克擊敗頂尖人類選手,每小時能贏1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003EIllustration: Jess Ebsworth\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E在一項具有重大現實意義的新研究中,撲克機器人在六人無限制德州撲克中擊敗了人類職業選手。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E有時候,撲克就是虛張聲勢。當你有一雙很小的對時,讓桌上的人相信你有葫蘆(三張同點加一對),這樣你就能大賺一筆。讀懂你的對手——在這裏做鬼臉,在那裏傻笑——然後相應下注。\u003C\u002Fp\u003E\u003Cp\u003E你不會相信計算機會擅長這種技能。但今天發表在《科學》雜誌上的一項新研究表明,人工智能可以學會對謊言做出反應,甚至不需要看到桌子上的任何人,而且比頂尖人類撲克玩家更聰明。這一事態發展的影響可能遠遠超出賭場。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F15a22daa83584dad98c596c1e72f4239\" img_width=\"864\" img_height=\"864\" alt=\"AI玩德州撲克擊敗頂尖人類選手,每小時能贏1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E近日,一款名爲Pluribus的撲克遊戲機器人在爲期12天,10000名撲克玩家參與的六人無限制德州撲克比賽中擊敗了12名頂級撲克專家。Pluribus是由現在在Facebook工作的AI研究員Noam Brown和匹茲堡卡內基梅隆大學的計算機科學教授Tuomas Sandholm共同創建的。(兩人在《科學》雜誌上發表了這篇論文。)\u003C\u002Fp\u003E\u003Cp\u003E根據Facebook發佈的博客文章,如果實驗中的每塊芯片都值1美元,那麼Pluribus每小時就能從專業人士那裏賺到1000美元。(這一成績大大超出了經驗豐富的職業選手的預期,甚至包括一些業餘選手)。\u003C\u002Fp\u003E\u003Cp\u003E布朗在2012-2019期間在卡內基梅隆獲取碩士和博士學位時進行了大部分撲克研究,但最後9個月他在Facebook工作過,並且在6月全職加入——搶佔部分人工智能學術浪潮的科技公司。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E“我認爲這對於開發現實世界中部署的AI非常重要。”\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E不過,在撲克桌上馳騁並不是布朗和桑德霍爾姆研究的終極目標。這款遊戲實際上是一個模擬器,它可以模擬一個算法如何在多個欺騙性對手面前控制局面,這些對手隱藏信息,並試圖壓迫對方退出。人工智能已經能夠比任何人更好更快地計算概率。但是玩撲克不僅要讀牌,還要應對人類的謊言,這正是爲什麼它是一款對人工智能很有用的學習遊戲。\u003C\u002Fp\u003E\u003Cp\u003E“我認爲這對開發現實世界中部署的AI真的非常重要。”布朗說,“因爲現實世界中大多數戰略互動都涉及多個代理,或涉及隱藏信息。”\u003C\u002Fp\u003E\u003Cp\u003E這不是布朗第一次把AI帶到撲克桌上。2017年,在桑德霍爾姆的監護下,他在卡內基梅隆大學攻讀博士學位時,首次推出了早期的撲克遊戲機器人Libratus。Libratus在一對一的無極限德州撲克遊戲中能輕鬆擊敗人類專業人士。\u003C\u002Fp\u003E\u003Cp\u003E這款名爲Pluribus的新機器人不適應同桌的其他玩家——它不會試圖去理解John和Jane在遊戲中的不同玩法。從統計學上講,只有當計算出這是一個合理的策略時,它纔會虛張聲勢。\u003C\u002Fp\u003E\u003Cp\u003E布朗在接受OneZero採訪時表示:“人們認爲,虛張聲勢是一種非常人性化的行爲,你看着對方和對方的眼睛,試圖解讀他們的靈魂,試圖判斷他們是否要屈服,是否在虛張聲勢。”“這並不是真正的問題所在。這是一個數學問題。虛張聲勢就是要在好牌和壞牌之間找到平衡,這樣你就不會被對手發現。”\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F3f42bb9adf0942fd9c1e13802aec03b8\" img_width=\"864\" img_height=\"833\" alt=\"AI玩德州撲克擊敗頂尖人類選手,每小時能贏1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E雖然人工智能目前掌握的大多數遊戲——比如圍棋和國際象棋——都可能極其複雜,但它們的共同點是,所有關於遊戲狀態和玩家的信息對每個人來說都是可見的。撲克的不同之處在於你不知道對手手中有什麼牌。這就好像你的對手的K和Q可以放在棋盤上的任何地方,然後被隱藏起來。既然你不知道你的對手知道什麼,你就無法輕易預測他們會怎麼做,或者他們爲什麼要做出某些決定。\u003C\u002Fp\u003E\u003Cp\u003E當人工智能不僅擁有所有必要的信息,而且之前已經看到過某種情況,它通常會蓬勃發展。谷歌的自動駕駛汽車能夠運行,是因爲谷歌已經徹底地繪製出了它們行駛的位置。像Facebook的照片標籤,使用人工智能的圖像識別軟件,通過觀察每種動物的數百萬張照片,學會如何區分狗和貓。\u003C\u002Fp\u003E\u003Cp\u003E但撲克是一種邊緣情況和隱藏信息的遊戲——統計上不太可能發生的罕見情況,全部排列在一起。在這張桌子上的其他五名玩家中,任何一位都可以在開始的時候擁有幾乎任意組合的牌,並且每個玩家可以下注幾乎任意數量的金額。潛在的投注組合如此之多,以至於布朗和桑德霍爾姆不得不做出調整,以降低機器人能夠感知的遊戲的複雜性。例如,他們“敲定”了類似的賭注,比如200美元和201美元,以提高機器人的效率。\u003C\u002Fp\u003E\u003Cp\u003E然而,Pluribus接受訓練的方式,與許多玩其他遊戲的人工智能非常相似。它與自己對弈了數百萬次,一開始完全隨機動作,直到它慢慢弄清楚哪些動作會產生積極的結果。它通過追蹤研究人員所稱的“後悔”來做到這一點,意味着它會追蹤其他潛在的結果,並得出一個分數,表示它對沒有采取另一項具體行動“後悔”了多少。這些後悔分數是相加的,所以算法越不採取正確的行動,它就越後悔。這些後悔分數使他在未來遊戲中,使用“後悔”分數高的行動。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F0c68901564c9413591c8831f6fbb8a55\" img_width=\"864\" img_height=\"481\" alt=\"AI玩德州撲克擊敗頂尖人類選手,每小時能贏1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003EFacebook舉了一個訓練的例子,機器人有兩個J。對手過牌,所以它過牌。然後對手下注。機器人跟注,結果發現對手有兩個K。機器人輸了。在這次之後,機器人會模擬同樣情況下會發生的事情。\u003C\u002Fp\u003E\u003Cp\u003E如果重玩這局,如果機器人會加註而不是跟注,對手會棄牌,機器人會贏。它“後悔”沒有采取這一行動,提高了後悔得分,這意味着在類似的情況下,它將來會多加註。\u003C\u002Fp\u003E\u003Cp\u003E當機器人真正在玩遊戲時,它會使用一系列其他機制來平衡它的遊戲風格。這包括考慮,如果它擁有其他潛在變化,它將如何行動。\u003C\u002Fp\u003E\u003Cp\u003E這對人工智能非常有用,遠遠超出了撲克桌的範圍,因爲現實世界中的人可以而且確實會說謊,就像他們打牌一樣。他們的行爲可能不理性,可能會犯錯。想象一下,不久的將來,自動駕駛汽車將上路。谷歌的車可能會接近一個十字路口,在那裏它會停下來讓一個人類司機通過。這名人類司機可能會啓動,然後不小心把咖啡灑在腿上,突然停下來,瘋狂地擦拭咖啡。他們心煩意亂,再次開車,然後才意識到——哎呀!他在十字路口,所以他突然又剎車了。對於自動駕駛汽車背後的AI來說,這是很多混合信號:這就像一個虛張聲勢。\u003C\u002Fp\u003E\u003Cp\u003E在這一瞬間,谷歌的車不得不在一個它不能信任路上其他司機的情況下運行。它不知道這個人的車裏發生了什麼?爲什麼它停了下來?它什麼時候會再開?它將來是否會再停一次?但它必須採取一些行動。當自動駕駛汽車在盲道轉彎或大雨中行駛時,同樣的問題也會出現——這兩種情況都會降低自動駕駛汽車所能獲取的信息質量。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E \u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E“不接受任何它以爲是真相的算法可能會有幫助”\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E類似的例子也可以用Facebook自己的新聞Feed來描述,該公司的無數機器人抓取用戶內容,對其進行標記、分類、翻譯和排序。您可以想象,如果用戶試圖繞過反垃圾郵件過濾器或上傳被禁止的圖像,內容審覈機器人如何利用有限的信息做出更好的決策是多麼有用。審覈機器人可能還必須與平臺上其他試圖發佈有問題內容的機器人競爭。\u003C\u002Fp\u003E\u003Cp\u003E“如果你在現實世界中部署一個人工智能系統,它會與其他人工智能或者人類進行交互。”布朗說,“在某些情況下,(另一個)人工智能可能試圖以欺騙或不誠實的方式行事。如果想人工智能有效,人工智能必須能夠應對這種情況。”\u003C\u002Fp\u003E\u003Cp\u003E辨別真相和謊言的能力非常重要,一種不接受任何它以爲是真相的算法,也許對此有幫助。\u003C\u002Fp\u003E\u003Cp\u003E當然,這不是假新聞的解決方案,也不是Facebook新一天的承諾。但在這場複雜、永無止境的戰爭中,谷歌或許可以利用它來理解和管理用戶生成的空前數量的信息。\u003C\u002Fp\u003E\u003Cp\u003E有了這個工具在撲克遊戲中的極限測試,布朗現在轉向其他可以通過遊戲理論啓發算法解決的問題。“我認爲這真的是撲克人工智能的最後一個重大挑戰”他說,“未來我們不打算繼續展開撲克工作,我認爲我們真正專注的是超越通用化。”\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6714174061905183239
相關文章