• 1.摘要
  • 2.定义
  • 2.1.数学描述
  • 3.例子
  • 4.重要结论
  • 5.应用

随机博弈

随机博弈(stochastic game)在博弈论中是一类由一个或多个参与者所进行的、具有状态概率转移的动态博弈,由劳埃德·夏普利(Lloyd Shapley)于20世纪50年代初期提出。

定义

这类博弈由一系列阶段组成。在博弈中每一阶段的起始,博弈处于某种特定状态。每一参与者选择某种行动,然后会获得取决于当前状态和所选择行动的收益。之后,博弈发展到下一阶段,处于一个新的随机状态,这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程,然后博弈继续进行有限或无限个数的阶段。一个参与者得到的总收益常用各阶段收益的贴现和,或是各阶段收益平均值的下极限来计算。

数学描述

随机博弈的组成部分有:有限参与者集image ;状态空间image (可以是有限集,也可以是可测空间image);对于每一参与者image,存在行动集image(可以是有限集,也可以是可测空间image);imageimageimage 的转移概率,其中image是行动组合,image是下一状态处于image 中的概率,而image 给定了当前状态image 和当前行动组合image ;从imageimage的收益函数image,其中image 的第image 个坐标image是参与者image 的收益,而image 是状态image 和行动组合image 的函数。

博弈以某个初始状态image 开始。在阶段image 中,参与者最先观测到image ,同时选择行动image,然后观测到行动组合image,然后以概率image自然选择image 。一次随机博弈image定义了一个收益流image,其中image

例子

下面给出随机博弈的一个例子:

当前有任意个装着球的桶,每个桶中球的数目也是任意的,两位参与者轮流从中取出球,且需要遵守如下规则:

  1. 1.

    每一步应至少取出一只球,且只能从某一桶中取走部分或全部球;

    谁取到最后一只球,谁就获胜。

重要结论

贴现因子为imageimage)的贴现博弈image 中,参与者image 的收益是imageimage 阶段博弈中,参与者image 的收益是image

若存在有限多个状态和行动的二人零和博弈image(各自是image)的值为image(各自是image),则imageimage 趋于无穷时收敛到一个极限,且imageimage趋于image时收敛到相同的极限。这一结论已被杜鲁门·彪利(Truman Bewley)和艾朗·克尔伯格(Elon Kohlberg)于1976年证明。

非贴现博弈image中,参与者image 的收益是各阶段收益平均值的极限。在定义二人零和博弈image的值与非零和博弈image的均衡收益之前需要注意一些事情:若对于每一image都有正整数image 、参与者1的策略image和参与者2的策略image,二人零和随机博弈image的一致值(uniform value)image存在,这样对于每一imageimage和每一image,博弈中由imageimage定义的概率的image期望至少为image,由imageimage定义的概率的image期望至多为image。让·弗朗索瓦·梅顿斯(Jean Francois Mertens)和亚伯拉罕·奈曼(Abraham Neyman)于1981年证明二人零和随机博弈具有一致值。

若参与者数量有限且行动集和状态集有限,则有限阶段随机博弈总有纳什均衡,对于总收益是贴现和的无限多阶段随机博弈也是如此。尼古拉斯·维勒(Nicolas Vieille)已经证明当总收益是各阶段收益平均值的下极限时,所有具有有限状态和行动空间的二人随机博弈都有近似纳什均衡。不过,当参与者多于2名时,随机博弈是否存在这类均衡仍是一个极具挑战性的开放性问题。

应用

随机博弈在经济学、演化生物学和计算机网络中都有应用。事实上,随机博弈是重复博弈这类每一阶段都处于相同状态的博弈的一般化形式。

有关随机博弈的最全面的参考书籍是奈曼和索林编著的文集。菲拉尔和乌瑞兹所著的书籍更为基础,书中提供了马尔可夫决策过程(MDP)和二人随机博弈理论的严密的统一处理方法。他们创造了Competitive MDPs这一术语来概括一人和二人随机博弈。