AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元

"\u003Cdiv\u003E\u003Cblockquote\u003E\u003Cp\u003E\u003Cstrong\u003E点击上方关注，All in AI中国\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F1839850a95974cdc80a8811ebd2579e8\" img_width=\"864\" img_height=\"539\" alt=\"AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003EIllustration: Jess Ebsworth\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E在一项具有重大现实意义的新研究中，扑克机器人在六人无限制德州扑克中击败了人类职业选手。\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cp\u003E有时候，扑克就是虚张声势。当你有一双很小的对时，让桌上的人相信你有葫芦（三张同点加一对），这样你就能大赚一笔。读懂你的对手——在这里做鬼脸，在那里傻笑——然后相应下注。\u003C\u002Fp\u003E\u003Cp\u003E你不会相信计算机会擅长这种技能。但今天发表在《科学》杂志上的一项新研究表明，人工智能可以学会对谎言做出反应，甚至不需要看到桌子上的任何人，而且比顶尖人类扑克玩家更聪明。这一事态发展的影响可能远远超出赌场。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F15a22daa83584dad98c596c1e72f4239\" img_width=\"864\" img_height=\"864\" alt=\"AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E近日，一款名为Pluribus的扑克游戏机器人在为期12天，10000名扑克玩家参与的六人无限制德州扑克比赛中击败了12名顶级扑克专家。Pluribus是由现在在Facebook工作的AI研究员Noam Brown和匹兹堡卡内基梅隆大学的计算机科学教授Tuomas Sandholm共同创建的。(两人在《科学》杂志上发表了这篇论文。)\u003C\u002Fp\u003E\u003Cp\u003E根据Facebook发布的博客文章，如果实验中的每块芯片都值1美元，那么Pluribus每小时就能从专业人士那里赚到1000美元。(这一成绩大大超出了经验丰富的职业选手的预期，甚至包括一些业余选手)。\u003C\u002Fp\u003E\u003Cp\u003E布朗在2012-2019期间在卡内基梅隆获取硕士和博士学位时进行了大部分扑克研究，但最后9个月他在Facebook工作过，并且在6月全职加入——抢占部分人工智能学术浪潮的科技公司。\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E“我认为这对于开发现实世界中部署的AI非常重要。”\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E不过，在扑克桌上驰骋并不是布朗和桑德霍尔姆研究的终极目标。这款游戏实际上是一个模拟器，它可以模拟一个算法如何在多个欺骗性对手面前控制局面，这些对手隐藏信息，并试图压迫对方退出。人工智能已经能够比任何人更好更快地计算概率。但是玩扑克不仅要读牌，还要应对人类的谎言，这正是为什么它是一款对人工智能很有用的学习游戏。\u003C\u002Fp\u003E\u003Cp\u003E“我认为这对开发现实世界中部署的AI真的非常重要。”布朗说，“因为现实世界中大多数战略互动都涉及多个代理，或涉及隐藏信息。”\u003C\u002Fp\u003E\u003Cp\u003E这不是布朗第一次把AI带到扑克桌上。2017年，在桑德霍尔姆的监护下，他在卡内基梅隆大学攻读博士学位时，首次推出了早期的扑克游戏机器人Libratus。Libratus在一对一的无极限德州扑克游戏中能轻松击败人类专业人士。\u003C\u002Fp\u003E\u003Cp\u003E这款名为Pluribus的新机器人不适应同桌的其他玩家——它不会试图去理解John和Jane在游戏中的不同玩法。从统计学上讲，只有当计算出这是一个合理的策略时，它才会虚张声势。\u003C\u002Fp\u003E\u003Cp\u003E布朗在接受OneZero采访时表示:“人们认为，虚张声势是一种非常人性化的行为，你看着对方和对方的眼睛，试图解读他们的灵魂，试图判断他们是否要屈服，是否在虚张声势。”“这并不是真正的问题所在。这是一个数学问题。虚张声势就是要在好牌和坏牌之间找到平衡，这样你就不会被对手发现。”\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F3f42bb9adf0942fd9c1e13802aec03b8\" img_width=\"864\" img_height=\"833\" alt=\"AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E虽然人工智能目前掌握的大多数游戏——比如围棋和国际象棋——都可能极其复杂，但它们的共同点是，所有关于游戏状态和玩家的信息对每个人来说都是可见的。扑克的不同之处在于你不知道对手手中有什么牌。这就好像你的对手的K和Q可以放在棋盘上的任何地方，然后被隐藏起来。既然你不知道你的对手知道什么，你就无法轻易预测他们会怎么做，或者他们为什么要做出某些决定。\u003C\u002Fp\u003E\u003Cp\u003E当人工智能不仅拥有所有必要的信息，而且之前已经看到过某种情况，它通常会蓬勃发展。谷歌的自动驾驶汽车能够运行，是因为谷歌已经彻底地绘制出了它们行驶的位置。像Facebook的照片标签，使用人工智能的图像识别软件，通过观察每种动物的数百万张照片，学会如何区分狗和猫。\u003C\u002Fp\u003E\u003Cp\u003E但扑克是一种边缘情况和隐藏信息的游戏——统计上不太可能发生的罕见情况，全部排列在一起。在这张桌子上的其他五名玩家中，任何一位都可以在开始的时候拥有几乎任意组合的牌，并且每个玩家可以下注几乎任意数量的金额。潜在的投注组合如此之多，以至于布朗和桑德霍尔姆不得不做出调整，以降低机器人能够感知的游戏的复杂性。例如，他们“敲定”了类似的赌注，比如200美元和201美元，以提高机器人的效率。\u003C\u002Fp\u003E\u003Cp\u003E然而，Pluribus接受训练的方式，与许多玩其他游戏的人工智能非常相似。它与自己对弈了数百万次，一开始完全随机动作，直到它慢慢弄清楚哪些动作会产生积极的结果。它通过追踪研究人员所称的“后悔”来做到这一点，意味着它会追踪其他潜在的结果，并得出一个分数，表示它对没有采取另一项具体行动“后悔”了多少。这些后悔分数是相加的，所以算法越不采取正确的行动，它就越后悔。这些后悔分数使他在未来游戏中，使用“后悔”分数高的行动。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F0c68901564c9413591c8831f6fbb8a55\" img_width=\"864\" img_height=\"481\" alt=\"AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003EFacebook举了一个训练的例子，机器人有两个J。对手过牌，所以它过牌。然后对手下注。机器人跟注，结果发现对手有两个K。机器人输了。在这次之后，机器人会模拟同样情况下会发生的事情。\u003C\u002Fp\u003E\u003Cp\u003E如果重玩这局，如果机器人会加注而不是跟注，对手会弃牌，机器人会赢。它“后悔”没有采取这一行动，提高了后悔得分，这意味着在类似的情况下，它将来会多加注。\u003C\u002Fp\u003E\u003Cp\u003E当机器人真正在玩游戏时，它会使用一系列其他机制来平衡它的游戏风格。这包括考虑，如果它拥有其他潜在变化，它将如何行动。\u003C\u002Fp\u003E\u003Cp\u003E这对人工智能非常有用，远远超出了扑克桌的范围，因为现实世界中的人可以而且确实会说谎，就像他们打牌一样。他们的行为可能不理性，可能会犯错。想象一下，不久的将来，自动驾驶汽车将上路。谷歌的车可能会接近一个十字路口，在那里它会停下来让一个人类司机通过。这名人类司机可能会启动，然后不小心把咖啡洒在腿上，突然停下来，疯狂地擦拭咖啡。他们心烦意乱，再次开车，然后才意识到——哎呀！他在十字路口，所以他突然又刹车了。对于自动驾驶汽车背后的AI来说，这是很多混合信号:这就像一个虚张声势。\u003C\u002Fp\u003E\u003Cp\u003E在这一瞬间，谷歌的车不得不在一个它不能信任路上其他司机的情况下运行。它不知道这个人的车里发生了什么？为什么它停了下来？它什么时候会再开？它将来是否会再停一次？但它必须采取一些行动。当自动驾驶汽车在盲道转弯或大雨中行驶时，同样的问题也会出现——这两种情况都会降低自动驾驶汽车所能获取的信息质量。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E \u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Ch1\u003E\u003Cstrong\u003E“不接受任何它以为是真相的算法可能会有帮助”\u003C\u002Fstrong\u003E\u003C\u002Fh1\u003E\u003Cp\u003E类似的例子也可以用Facebook自己的新闻Feed来描述，该公司的无数机器人抓取用户内容，对其进行标记、分类、翻译和排序。您可以想象，如果用户试图绕过反垃圾邮件过滤器或上传被禁止的图像，内容审核机器人如何利用有限的信息做出更好的决策是多么有用。审核机器人可能还必须与平台上其他试图发布有问题内容的机器人竞争。\u003C\u002Fp\u003E\u003Cp\u003E“如果你在现实世界中部署一个人工智能系统，它会与其他人工智能或者人类进行交互。”布朗说，“在某些情况下，(另一个)人工智能可能试图以欺骗或不诚实的方式行事。如果想人工智能有效，人工智能必须能够应对这种情况。”\u003C\u002Fp\u003E\u003Cp\u003E辨别真相和谎言的能力非常重要，一种不接受任何它以为是真相的算法，也许对此有帮助。\u003C\u002Fp\u003E\u003Cp\u003E当然，这不是假新闻的解决方案，也不是Facebook新一天的承诺。但在这场复杂、永无止境的战争中，谷歌或许可以利用它来理解和管理用户生成的空前数量的信息。\u003C\u002Fp\u003E\u003Cp\u003E有了这个工具在扑克游戏中的极限测试，布朗现在转向其他可以通过游戏理论启发算法解决的问题。“我认为这真的是扑克人工智能的最后一个重大挑战”他说，“未来我们不打算继续展开扑克工作，我认为我们真正专注的是超越通用化。”\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6714174061905183239

AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元

热门新闻

周热门

AI玩德州扑克击败顶尖人类选手，每小时能赢1000美元

57岁高考钉子户梁实备战第28次考试：可能是最后一次了

美国参议院建议拨款320亿美元支持AI，透露了哪些监管风向？

若不提供AI风险信息，微软必应或面临欧盟罚款

AI代写论文？多所高校明确：严查！

OpenAI与Reddit建立合作伙伴关系，利用其内容训练AI系统

AI热潮恰逢存量消化期 应用材料Q2业绩超预期 Q3指引令人失望

半导体市场需求奏响“四重奏”

知名分析师蒙斯特：前OpenAI首席科学家有六成机会投奔马斯克

AMD 发布 24.5.1 图形驱动，支持《地狱之刃 2：塞娜的传说》等游戏

消息称微软中国人工智能团队“被打包赴美”

航天软件(688562.SH)：9902万股限售股5月24日起上市流通

雷诺汽车发布未来自动驾驶战略 将与文远知行在公共交通领域开展合作

港股概念追踪 | 百度(09888)、特斯拉(TSLA.US)强强联手！智驾将迎发展新窗口(附概念股)

iOS 版谷歌 Chrome 浏览器正测试引入“圈选即搜”功能

华硕内地成立联硕电脑 重点研发国产CPU系统电脑

热门新闻

周热门

AI热潮恰逢存量消化期应用材料Q2业绩超预期 Q3指引令人失望

雷诺汽车发布未来自动驾驶战略将与文远知行在公共交通领域开展合作

华硕内地成立联硕电脑重点研发国产CPU系统电脑