理论教育 混合策略:理解与优化

混合策略:理解与优化

时间:2023-07-06 理论教育 版权反馈
【摘要】:如某矩阵对策的支付矩阵为根据前述方法,这时可以求得两者并不相等,不满足对策解的概念。解一个混合策略问题就是求两个局中人各自选取不同策略的概率分布。有定理保证,在混合策略意义下所有对策问题都存在着至少一个解。事实上,前述的纯策略本质上也可看成是混合策略的一个特例,只是局中人选择某个策略的概率为1,其他为0而已。

混合策略:理解与优化

根据上述矩阵对策的解法,并不是所有的对策都存在着纯策略意义下的解。如某矩阵对策的支付矩阵为

根据前述方法,这时可以求得

两者并不相等,不满足对策解的概念。这种情况下,我们说该对策不存在纯策略意义下的均衡局势和解。也就是说,局中人不能单独地使用某一个策略,以不变应万变。一个比较自然且合乎实际的想法是:既然局中人不能单纯使用一个策略,他是否可依照在策略集上的某一概率分布来选取自己的策略,以使得局中人的平均赢得(或损失)最多(或最少)。我们把这种策略称为混合策略。解一个混合策略问题就是求两个局中人各自选取不同策略的概率分布。

如上述对策中,若局中人I选择策略α1的概率为p,则他选择策略α2的概率为1-p。若局中人II选择策略β1的概率为q,则他选择策略β2的概率为1-q。这样对策就变成局中人如何确定其在策略集上的概率分布了。在当前的概率假设下,局中人I选择α1和α2时的期望收益分别为

为了不使局中人II得知自己的策略选择,局中人I应该使得自己在无论选择α1或α2时的期望收益相等,即

同样地,局中人II选择β1和β2时的期望损失分别为(www.daowen.com)

为了不使局中人I得知自己的策略选择,局中人II应该使得自己在无论选择β1或β2时的期望损失相等,即

此时,对策的值为VG=3,即为局中人I的期望收益,或局中人II的期望损失。

记其值为VG,则称其为对策G的值,称使得上式成立的混合局势(x,y)为G在混合策略意义下的解,x和y分别称为局中人I和局中人II的最优混合策略。

有定理保证,在混合策略意义下所有对策问题都存在着至少一个解。事实上,前述的纯策略本质上也可看成是混合策略的一个特例,只是局中人选择某个策略的概率为1,其他为0而已。所以后面我们对G和G不作严格区分。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈