理论教育 混合策略博弈的支付矩阵优化

混合策略博弈的支付矩阵优化

时间:2023-06-09 理论教育 版权反馈
【摘要】:对产业技术创新战略联盟而言,合作策略是政府主管部门进行抽查时的最优策略,而投机策略政府主管部门不检查时的最佳策略。表6.1给出政府与产业技术创新战略联盟盟员投机行为混合策略博弈的支付矩阵。

混合策略博弈的支付矩阵优化

对产业技术创新战略联盟而言,合作策略是政府主管部门进行抽查时的最优策略,而投机策略政府主管部门不检查时的最佳策略。同样,当产业技术创新战略联盟盟员投机时,政府主管部门的最佳策略是进行抽样检查,而合作策略时的最佳策略是不查处。表6.1给出政府与产业技术创新战略联盟盟员投机行为混合策略博弈的支付矩阵

表6.1 政府主管部门与盟员之间的博弈支付矩阵

静态支付矩阵条件下,政府对产业技术创新战略联盟盟员投机策略的惩罚为固定值,有限理性的博弈主体在博弈之初选择的初始值不是博弈均衡点,且短期内很难得到博弈的稳定状态,需要长时间地重复博弈才能逐渐趋于稳定。倘若存在信息延迟,情况将更加复杂化。

假设最初状态产业技术创新战略联盟盟员采取投机策略的概率为P1,则采取合作策略的比例为1-P1,政府主管部门采取抽查的概率为P2,采取不抽查策略的概率为1-P2。按照生物进化复制动态的思想,选取低收益策略的博弈方将逐渐改变自己的策略模拟高收益策略博弈方的行动。因此,选取不同策略的博弈双方的比例将发生变化,其变化速度与其比重和收益超过平均收益的幅度成正比[184]

根据支付矩阵,产业技术创新战略联盟盟员采取投机策略和合作策略的期望收益分别为:

Em11=P2(-a-b+e)+(1-P2)(-a+e)

Em12=P2(-d-f)+(1-P2)0(www.daowen.com)

则产业技术创新战略联盟盟员的平均收益为:

Em1=P1Em11+(1-P1)Em12

引入复制动态方程,则产业技术创新战略联盟盟员采取投机策略的变化速度为:

dP1/dt=P1(Em11-Em1

同理,政府主管部门采取抽查策略的变化速度为:

dP2/dt=P2(Ez11-Ez1

但现实中的产业技术创新战略联盟的盟员主体有很多且各主体之间并不是完全独立的。变量数量及变量之间的作用关系将随着博弈主体数量的增多将增加。因此,很难完全求出上式的所有均衡点。但是上述模型有助于我们把握产业技术创新战略联盟成员投机行为的问题本质,分析相关影响因素,寻找解决该问题的方法。此时引入系统动力学仿真手段,能解决模型无法完全通过理论分析达到研究的目的,对变量改变效果进行短期和长期地预测分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈