人类与机器之间到底谁才是王者

  • 293
  • A+

由于在德扑APP下载中,玩家们无法获取已发生事件的全部信息,诸如对手的底牌,因此这个德扑俱乐部游戏属于“不完美信息”(Imperfect Information)类游戏。虽然德扑APP下载的缺失信息比西洋跳棋少,但是这种不完美信息的特质使得双人德扑APP下载成为难度远远更高的人工智能挑战项目。研究者表示,要破解这样的游戏,势必需要更大的计算机记忆和计算能力。

  然而更重要的是算法。鲍林和同事开发了一个叫CFR+的算法,这种算法是CFR算法(counterfactual regret minimization,虚拟遗憾最小化)的一个变体,从使遗憾最小化的角度学习最优的博弈策略。鲍林表示:“我们工作的主要突破是基础算法的改良。这意味着,在任意形式的大规模模型里,基于博弈论的推理将变得更加容易。”

  这个算法的表现怎么样?鲍林解释说:“想象一下一个人每小时玩200局扑克,每天玩12小时,70年从未有一天间断。进一步假设他时刻考虑最差的情形,争取最大程度的胜利,采取针对性的策略,并永远不出现一次失误。”他们的程序每秒进行24万亿局,连续操作两个月,结果提示他们基本破解了这个游戏。现在,网友们可以在真人6up阿尔伯塔大学的网页上与这个叫Cepheus(仙王座)的程序交手。

  虽然听起来很好玩,博弈论其实一直被寄望于处理一些严肃的问题——在安全领域,博弈论的应用已掀起热潮,例如机场检查点的设置、飞机起落的次序和警卫的巡逻中都有博弈论的身影。在真实世界中,我们往往需要在信息不足或不确定时做出决定,有了更好的博弈论算法,我们才能更好地解决未来的实际问题,正如鲍林试图解决德扑APP下载问题一样。

---------------------------------------------


德州扑克
6up