大家好,今天来为大家解答您如何看待AI进入地主斗珠领域?这个问题的一些问题点,包括也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~
解开
快手团队开发的斗地主AI被命名为DouZero,这意味着它像AlphaZero一样从头开始训练,没有添加任何人类知识。
仅使用4 个GPU 和短短几天的训练,它就在Botzone 排行榜上的344 个斗地主AI 中排名第一。
评论
感谢您的邀请。
2016年AlphaGo的出现让人们认识到人工智能的水平已经可以在很多领域超越人类。 2017 年,AlphaZero 紧随其后。与AlphaGo不同,AlphaZero可以从头开始,通过强化学习,在试错过程中完成数百万次自对弈,并且可以掌握五子棋、围棋等各种棋局。此外,近年来棋牌AI应用还包括麻将AI Suphx等。
前面提到的AI可以分为两类:
人工智能想要在不完美信息博弈中彻底击败人类是非常困难的。我之前在一份日报上发表过一个答案“
我读了这篇论文并大致总结了它的内容。
摘要是论文的摘要。摘要介绍了斗地主的挑战主要在于竞争、合作和不完全信息博弈,因此团队提出了斗零,通过深度神经网络、动作编码和并行参与者来增强蒙特卡洛。卡罗方法。为了进行训练,使用了具有4 个GPU 的服务器。经过短短几天的训练,它就击败了botzone上的其他344名斗地主AI,成功登顶榜单。
知道了大概的思路,我们来看看具体的方法。
第一个是动作编码。 DouZero将所有卡类型编码为由0和1组成的15x4矩阵。每列代表一种卡牌,每行代表相应卡牌的数量。
以神经网络为例,其架构如下:
至于平行角色是什么? DouZero采用多参与者架构。在单个GPU服务器上,使用45个actor同时生成数据,最终数据被收集到中央训练器中进行训练。
传统的强化学习使用蒙特卡罗方法。所谓蒙特卡罗方法是一种随机模拟,通过重复实验来估计真实值。 DouZero中引入了深度蒙特卡罗(DMC)方法。所谓DMC就是用神经网络代替Q表,并利用均方误差(MSE)来更新Q网络。
文章第五章给出了非常详细的实验结果。
首先是斗零和其他斗地主AI的对比。其中,WP0.5(即胜率过半)或ADP0(正分)的以粗体标注。可见,斗零可以说横扫了其他斗地主AI。
在训练速度上,DouZero只需要训练两天就可以达到与SL模型(用人类数据训练的模型)相当的胜率。经过10多天的训练,胜率和分数都可以超越另一款斗地主AI DeltaDou。
论文还展示了botzone 中的竞赛数据。可见DouZero基本是无敌的。
DouZero真的那么聪明吗?让我这个人类玩家来尝试一下。
一共进行了15场比赛,其中地主5场,地主商人5场,地主属下5场。中奖率如下:
之所以每个角色都想尝试几次,是因为每个角色的难度都不同。从上图也可以看出,当你是地主或地主时,更容易获胜。为什么?因为?因为作为一个农民,你有一个人工智能来帮助你,但作为一个地主,你必须与两个人工智能作斗争。
当我当地主的时候,我从来没有赢过一场比赛,我感受到了两个AI来打败我的“羞辱”。即使我翻开他们的牌,看他们打牌,我还是赢不了。我觉得DouZero的打法是全局性的,而不是专注于最大化当前的胜率。然而,正如该报所说,农民之间确实缺乏协作。有时我看到,明明有两个农民,上家对下家耍手段,赢得更快,但最终还是上家出牌了。
其中一轮,DouZero打出了一场非常精彩的比赛。下面我就给大家展示一下这个过程。为了演示人工智能的决策过程,我展示了人工智能的手。
首先,我拿到的牌非常好。我连续打了两个三连球(分别是3334 和6667)。
此时,DouZero的获胜概率已不足50%。我乘胜追击,又拿出了一张三带一(88810)。这时候,嘿嘿,DouZero的获胜概率提升到了79.55%。我毁掉一手好牌很难吗?
综合考虑后,DouZero无法决定,所以我打了5。看来DouZero的获胜概率降低了。
玩了几对之后,我的手牌看起来像这样:
虽然看起来我的牌很少,但我只剩下3张牌,而对手分别有11张和13张牌。但此时对方的概率已经变成了100%,而我获胜的概率已经是0了,最终我还是输了,我只剩下一张牌了。
这场比赛赢了我。给我的感觉是DouZero打牌的时候没有感情(其实没有)。即使你的牌比它少很多,它仍然有信心能打败你。
当然,用我的记录来评价DouZero的水平可能不太公平。毕竟我不是职业选手,水平确实一般。希望以后能看到DouZero高手和本土主播打败DouZero。
由于在线版本性能有限(虽然我还是输了),所以我在clone github repo上本地尝试了一下。由于没有本地GPU环境,我不敢按照官方使用4个GPU的方法训练几天,所以只好使用官方预训练的模型。
官方代码地址:
官方提供了三种型号:
每个模型分别对应地主、地主上族、地主下族三个职位,总共27种组合。如果加上随机的和RLCard的,还有更多的组合。
当然,人类想要在命令行下参与打牌实在是太困难了。我们可以在代码中运行evaolute.py来设置三方采用的模型,然后让他们相互竞争多轮。在这里设定一个小目标,并实现10,000轮。运行方法我就不赘述了,官方文档中有详细说明。
其中,更值得关注的是DouZero代理商与RLCard代理商之间的对决。读者可能还不知道RLCard,这里简单介绍一下。 RLCard 是一款开源卡牌游戏强化学习工具包。如果DouZero能够击败RLCard,就意味着DouZero比RLCard“更聪明”。
首先,地主使用RLCard,两个农民使用DouZero-ADP。游戏数量为10,000。
地主VS农民的胜率比为0.131 : 0.869。可以看到,DouZero-ADP彻底摧毁了RLCard,得分比为-2.4564 : 2.4564
尝试使用DouZero-WP看看效果
再过几分钟,第一万场战斗就将结束。可以看到,中奖率比例为0.1024:0.8976,更加悬殊;平均分差距略有缩小。
那么,儿子之矛和荆棘之盾呢?我使用DouZero-WP 尝试了所有三个方
农民的中标率更高。看来当房东也不容易啊。
由于组合太多,这里就不一一测试和展示了。你也可以尝试一下其他AI组合的战斗结果,也许你能发现一些有趣的发现。
研究了一天,感觉DouZero还是让人惊喜的。
首先,这个项目是一个惊喜。这是一个有论文有代码的项目,非常人性化。提供的代码可以轻松运行,运行速度不错。我用MacBook Pro运行预训练的模型,玩10000场游戏只用了三分钟。虽然我的条件不允许我用4块GPU训练几天,但是对于实验室来说并不困难。有条件的话可以用实验室的GPU试试。
其次,效果也令人信服。实际的战斗效果,比如胜率、分数等等,除了卡牌的随机性之外,可以说和论文中描述的基本一致,效果还是不错的。难怪我能达到botzone天梯的第一名。
DouZero团队也提出了下一步的优化方法,我们也期待新的更强版本DouZero AI的诞生。
用户评论
以前打麻将都是靠感觉和经验,现在AI要来搅局了?想想这个概念还是蛮新鲜的。
有19位网友表示赞同!
作为一个“智障”玩家,我倒是很担心AI会把我们这些菜鸡淘汰出局!不过也挺期待AI的策略玩法到底怎么样。
有18位网友表示赞同!
我觉得AI入驻斗地主是迟早的事,毕竟各种游戏都被AI玩通了。只不过希望AI不要太“智能”,让真正的玩家还能玩得开心一点。
有18位网友表示赞同!
说句实话,很多时候斗地主还是靠运气和一点小技巧。AI就算厉害也不一定能完全战胜人吧?
有8位网友表示赞同!
我倒是蛮支持AI加入斗地主的!这样一来游戏体验就会更丰富,说不定还能学到一些新战术呢!想想看,人类和AI同台竞技,那可是个大事件啊!
有7位网友表示赞同!
这AI真是无所不能!打麻将,下棋都能用AI来玩了。斗地主毕竟是比较大众的游戏,我觉得未来会出现专门的AI斗地主平台或者App。
有8位网友表示赞同!
其实我一直认为,AI融入到游戏里是一种很好的趋势,可以提升游戏的乐趣和挑战性。当然,也要平衡好AI与玩家之间的关系,让游戏更公平、更有趣。
有9位网友表示赞同!
我担心AI会把斗地主玩成机器人赛?那样就失去游戏的本来乐趣了!希望大家还是能多下点棋,培养一下策略思维和团队合作精神。
有10位网友表示赞同!
AI杀入斗地主领域,会不会让玩家们越来越“依赖” AI 呢?我觉得还是要回归到人类互动游戏本身的意义上,享受和朋友家人一起玩乐的过程!
有12位网友表示赞同!
不过AI打牌总感觉少了点人味,吧?看着一堆代码分析数据计算策略,我反而觉得没那么刺激了。
有9位网友表示赞同!
要是能开发个AI斗地主助手,帮忙预测一下别人的出牌规律什么的,那倒是很实用!
有14位网友表示赞同!
我觉得AI的加入能让斗地主变得更加智能化和科学化, 对于新手玩家来说也能提供更好的学习和指导。
有15位网友表示赞同!
就怕AI太厉害,让我们这些菜鸟根本无法生存了!
有16位网友表示赞同!
我很期待看到AI是如何在斗地主领域发光发热的! 希望它能为游戏带来新的玩法和挑战。
有9位网友表示赞同!
如果AI确实能够做出精准的判断和出牌预判,那将会是斗地主领域的一场革命!
有19位网友表示赞同!
会不会有一天,我们可以玩一场人类VS AI 斗地主的终极较量呢?想想就感觉太刺激了!
有9位网友表示赞同!
我觉得这种趋势会让游戏更加多元化,给玩家带来更多选择。不过,也有人会认为AI的加入破坏了游戏的乐趣,这需要进一步讨论和平衡。
有18位网友表示赞同!
我个人比较担心的是,如果AI玩得太好,那可能会降低大家玩斗地主的热情啊!毕竟谁都希望自己能赢吧。
有11位网友表示赞同!
虽然AI很强大,但我还是相信人类的智慧和策略性不会被轻易替代, menschlichen Faktoren und soziale Interaktionen bleiben im Spiel unverzichtbar!
有7位网友表示赞同!