2017年,腾讯AI夺冠围棋的时候(网友呼吁我们进军麻将)
2019年,腾讯AI打赢王者职业选手的时候(网友呼吁我们进军麻将)
(相关资料图)
2020年,腾讯AI获得AI足球世界冠军的时候(网友呼吁我们也进军麻将)
今天,腾讯AI绝艺LuckyJ打麻将出道:
腾讯麻将AI在日本麻将天凤平台特上房达到稳定段位10.68段。
刷新了 AI 在麻将领域取得的最好成绩,这代表着腾讯研发团队在决策AI方向上取得了业界领先的成绩和突破。
相信你肯定有疑问:
为什么中国麻将AI要去日本平台?
为什么过去这么多年才来?
你且听我细说。
首先是第一个问题,为什么去日本打比赛?
先给大家介绍一下天凤平台:
“天凤”,是知名的日本麻将竞技平台,拥有较为体系化的竞技规则和专业段位规则,受到职业麻将届的广泛认可。
全世界的麻将AI基本都在这里进行训练和打段。(既然要出道,就要在AI最多的平台取得成绩并出道)
“段位”,就有点类似于我们打王者荣耀,根据参与的局数和不断累积的积分,判定你的段位,王者有:青铜……钻石、星耀、王者、荣耀王者。
天凤则按照1段—11段来进行排位,10段就相当于王者荣耀里的荣耀王者段位。
天凤平台,7段以上3037人,约占百分之一,而能达到 10 段的只有 27 人(含AI),只占不到万分之一。
天凤稳定段位bootstrap的分布,绝艺LuckyJ显著强于之前最强的两个日本麻将AI(Suphx,NAGA)LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05
这是目前排名前三的麻将AI,绝艺LuckyJ花了一千多局,就达到了10段,在特上房所有对战数超过1000把的注册玩家,稳定段位历史排名第一。
天凤十段,日本麻将战术研究家,yousei(来自日本),天凤ID:黒猫@ぺろぺろ☆ :
LuckyJ看起来“完全没有漏洞”!
一方面通过保留安全牌等策略降低事故率。
另一方面,即使手牌中同时存在多个和牌方向,LuckyJ也可以在这些复杂的分支中顺利的进行下去。
麻将起源于中国,是国粹。
小区偶然经过的大爷大妈,可能都是隐藏的高手。
值得一提的是,绝艺LuckyJ不仅达到日本麻将天凤十段,而且之前还在国标麻将线下邀请赛中战胜了6位国标麻将职业选手。(麻将在中国早已经成为了一项专业的运动,有着一大批参加专业赛事的选手)
成为首个战胜国标麻将顶尖职业选手的麻将AI。
杨磊,国标麻将职业选手,标榜麻将运动协会会长,最好成绩:2007年中国牌王赛牌王,2007年王中王比赛冠军:
经过数月与腾讯麻将AI的对抗测试,通过分析AI对局,AI无论在进攻还是防守都让我印象深刻。
在进攻端,AI可以呈现出快速成型、保持变化、根据场况做出最佳选择;在防守端,从初期的控制节奏和方向,到后期可以精准调整、果断变张,可谓做到了违害就利、大破大立。
我们通常所谓的妙手、灵光一现,甚至基于经验和感觉做出的置之死地而后生的选择,对于AI来说可能算是常规操作。
第二个问题。
为什么这么长时间,才进军麻将?
因为麻将对于AI来说——难。
相对于围棋和象棋,双方的棋子都在桌面上,所有人都可以看到全局信息,这种情况叫完美信息博弈。
而像德州扑克和麻将,两者的共同点是有隐藏信息,玩家手牌都不可见,这种叫非完美信息博弈。
不管是完美信息博弈还是非完美信息博弈,过去棋牌类AI有两大核心技术要素。
离线训练:
其目的在于通过强化学习或其他算法,让AI学会玩游戏,并得到一个固定的离线策略。(离线策略:生成自己的对战策略,什么状态下应对什么动作)
在线搜索:
在线对战的时候,在线搜索技术可以通过强大的计算力来无穷枚举各种可能性,在离线策略的基础上进行实时调整,搜索到制胜路径。
也就是在和你下围棋时,你走了1步,AI脑海里已经想了1万步,然后从中挑选出最优的一步来和你下棋。
大家都知道的围棋AlphaGo采用的方法就是强化学习+蒙特卡洛树搜索。
但是,针对完美信息博弈的技术并不适用于非完美信息博弈场景。
具体来说,传统强化学习并不能收敛到非完美信息博弈的最强策略。
另外,蒙特卡洛树搜索又要求对手手牌可见。
所以,德州扑克AI采用的方法就是遗憾值最小化算法+安全子博弈搜索。
德州扑克只有2张不可见手牌,计算复杂度没有特别高,可以借用计算机的算力来满足传统的算法。
而麻将有136张牌,手牌只有13张牌,存在着巨量隐藏信息,是德州扑克的几亿……亿倍。
如上图所示,横坐标信息集数目表示可观察状态的多少,即牌面的信息,纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。
此外,在麻将除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌以及是否胡牌。
任意一位玩家的行为都会改变摸牌的顺序,涉及了大量的决策。
总之,在麻将面前,过去的方法并不完全适用:
传统离线策略训练方法,要么算的快但算不好(强化学习),要么算的好但算不快(遗憾值最小化算法)。
传统的在线搜索算法,要么不适用(蒙特卡洛树搜索),要么计算复杂度太高(安全子博弈搜索)。
所以,麻将AI要打好麻将,就得另辟蹊径,找到一种方法:
既能训练强大的离线策略还要满足高效的在线搜索。
要什么有什么。
于是,我们AI Lab 的研究员提出了一种新型策略优化算法————ACH:actor critic hedge。
采用了基于强化学习和遗憾值最小化的自我博弈技术,使得AI能从零开始自我学习和提高,并最终收敛到一个最强的混合策略。
该算法具备传统强化学习可扩展性好(算的快)的优点,又部分继承了遗憾值最小化算法的一些理论性质(算的好),相比传统的强化学习方法,该策略优化算法在非完美信息游戏中训练得到的策略更平衡(攻守兼备),也更鲁棒。
同时我们基于乐观价值估计的思想,提出了一种高效的非完美搜索方法。
一是对搜索树做了高效的变换和剪枝,避免了AI大量的无效搜索,极大提高了搜索效率。
另一方面,区别于过去搜索与离线策略的结合方式,我们将搜索返回的结果作为一种“特征”输入到自研的策略神经网络,使得AI在有海量隐藏信息的游戏状态中,仍可以实时调整当前策略。
如此一来,便解决了非完美信息搜索复杂度高难以应用于大规模博弈的问题,使深度强化学习结合非完美信息搜索成为可能。
其实,我们研究麻将AI,并不仅仅是为了博弈或竞技。
是因为,麻将和我们生活环境很像。
都存在大量的隐藏信息和不确定因素,都需要在复杂的推理策略和带有随机性的博弈中做出决策。
训练麻将AI,其实就是在训练AI更好地去认识人类的世界。
最终让AI能早日走进那些人类生活中,比如金融交易、自动驾驶、交通物流、拍卖系统等……
解决真实世界的复杂问题。
关键词: