理论教育 标准Newsvendor环境下Stackelberg主从博弈优化策略

标准Newsvendor环境下Stackelberg主从博弈优化策略

时间:2023-06-02 理论教育 版权反馈
【摘要】:,in)的Stackelberg主从博弈问题本质上是供应链整体期望收益Pareto最优下的一个讨价还价模型,并具有无穷子博弈精炼纳什均衡解。

标准Newsvendor环境下Stackelberg主从博弈优化策略

1.Newsvendor问题的已知条件及假设

新的经济环境下随着需求响应速度的加快、需求个性化程度的提高和产品周期的缩短以及更新换代的加速,越来越多的产品呈现出短销售周期产品(SSCP)的特点:供货提前期长、销售时间短、市场需求预测准确性差、期末积压产品残余价值低,其中交易的产品是短销售周期产品(季节性产品)。鉴于短销售周期产品的特点,零售商的选择是在销售季节到来之前向制造商一次性订购其在该销售季节拟向最终顾客销售的所有产品。

已知:

(1)该短销售周期产品的边际生产成本为v,制造商给予零售商的批发单价为c,零售商面向最终顾客的零售单价为p,销售季节末期的积压产品(若有)的处理单价为s;

(2)在零售价p下,该短销售周期产品的市场需求量为一个随机变量,记为D,D服从某随机概率分布,该分布的分布函数为F(x)、密度函数为f(x);

(3)制造商和零售商的保留效用分别为U-M和U-R

(4)制造商与零售商均为风险中性,即以追求期望收益的最大化为决策目标。

约定:

表示收益,其中,上标(0)、(I)、(c)分别表示标准Newsvendor模型下、存在激励契约I、供应链集中决策等情形;下标R、M、SC分别表示零售商、制造商和供应链整体。

2.标准Newsvendor问题的决策模型

(1)零售商决策(分散决策模式)

命题1 标准Newsvendor模型中零售商具有唯一的最优订购批量

[证明]

该命题的证明是简单的:

设批发价格为c时零售商采购批量为Q,则此时其相应收益为

从而其期望收益为

零售商的决策问题就是寻找合适的订购批量Q以实现的最大化,即

注意到EΠ(0)R关于订购批量Q的二阶导数

即EΠ(0)R为Q的下凸函数,有唯一最小值。

从而,解驻点方程,可求得相应的最小值点(最优订货批量)为

证毕。

此时,零售商相应的最大期望收益为

制造商的收益取决于零售商的采购批量,即

供应链的总收益则为

(2)供应链集中决策

命题2供应链整体最优期望收益当且仅当供货量时取得。

证明过程完全可以由命题1的证明平行推导得到,

从供应链整体的角度集中决策可得:

供应链系统最优批量为

最大系统期望收益为

值得注意的是

即在分散决策情形下零售商从自身期望收益最大化的原则上选择的最优采购批量将小于系统最优批量,从而不能实现供应链系统期望收益最优。这同时也说明供应链上、下游都有潜在的利润上升空间。

以上分析正说明了制造商对零售商进行激励的必要性和意义,接下来的一节将开始讨论具体的激励问题。

3.标准Newsvendor问题背景下的Stackelberg激励模型

首先引入一个概念:

定义1最优供应链激励契约I*(i 1,i 2,…,in):上游制造商向下游零售商提供基于契约向量(i 1,i 2,…,in)的激励契约I(i 1,i 2,…,in),若该激励契约可行,则称其为最优激励契约当且仅当其满足条件:零售商在此激励契约下相应的最优订购量Q(c)*,即供应链将达到集体理性的整体最优期望收益

引理一个供应链激励契约I(i 1,i 2,…,in)可行,当且仅当其满足供应链双方的个体理性约束条件和激励相容约束条件,即

(1)制造商在此激励契约下的期望收益(制造商理性约束条件);

(2)零售商在此激励契约下的期望收益(零售商理性约束条件);

(3)(零售商激励相容约束条件);

(4)(制造商激励相容约束条件)。

该引理是显然的。在此基础上,我们提出以下结论:

命题3(对称信息下供应链协调问题的讨价还价属性)

在对称信息下,制造商与零售商之间基于最优供应链激励契约形式I*(i 1,i 2,…,in)的Stackelberg主从博弈问题本质上是供应链整体期望收益Pareto最优下的一个讨价还价(offer-counteroffer)模型,并具有无穷子博弈精炼纳什均衡解。

[证明]

由命题1和命题2可知,Q(0)*≠Q(c)*,这说明在不存在制造商激励契约的情形下,零售商追求自身期望收益最大化的结果将导致供应链整体的期望收益无法达到,即。若某激励契约形式I*(i 1,i 2,…,in)为最优供应链激励契约形式,则其将满足供应链双方的个体理性约束条件和激励相容约束条件,且有(www.daowen.com)

,注意到为常数,因此有

由于在其激励契约形式下制造商的期望收益和零售商的期望收益以及比例系数δ均由激励契约向量(i 1,i 2,…,in)决定,而在对称信息下,双方了解博弈过程中的所有变化,因此,双方期望收益的最终取值或说激励契约向量(i 1,i 2,…,in)的最终取值将由双方的实力对比与谈判的耐心程度等决定。

换言之,双方关于激励契约的博弈过程本质上是一个关于供应链最大期望收益的分配比例系数ω在区间上具体取值的一个讨价还价(offer-counteroffer)问题。由于该区间具有连续统,因此,这一博弈模型具有无穷多个均衡解,而均衡解的最终选择结果将取决于供应链双方的实力对比与谈判耐心程度等因素。

接下来,本书将以回购契约为例,来检验命题3。

4.对称信息下回购契约讨价还价属性检验

考虑上游制造商采用回购契约作为对下游零售商的激励策略,即制造商向零售商承诺:在销售季节结束时,若零售商有多余的产品积压,则制造商承诺以某个回购价格b(s≤b≤c)将积压产品购回。关于回购契约,本书提出以下命题:

命题4(可行回购合同的存在性) 必存在基于批发价格c和回购价格b的可行回购合同,使得相对于不进行回购时制造商的期望利益增加,而零售商的期望收益不减。

[证明]

制造商提出回购激励价格组合(c,b),此时相当于零售商期末积压产品的残余价值为b(b≥s),从而类似于2(1)可知,零售商将为获得自身最大化期望收益而给出订购量:

注意到只有在供应链整体期望收益达到最大化的前提下,制造商的期望收益才有最大的提升空间,故此,制造商的激励方向就是寻找适当的激励向量(c,b)以使得零售商的采购量等于系统最优批量,即

并在此基础上实现自身利益最大化。

可以采用线性合同方式对上述思路进行描述:

制造商在零售商采购产品Q、实现供应链整体收益(Q)是向零售商提供转移支付,即共享系统收益的合同形式:

此时,制造商的期望收益为

从而其决策问题为

其中第一个约束IR为零售商个人理性约束,即接受此合同的收益不能低于不接受合同的期望收益(或称保留效用,特别地,此处可取=E);第二个约束IC为零售商激励相容约束,即在合同下代理人总是选择使自己的期望收益最大化的决策,此处表现为零售商的最优采购批量Q(b)*

为略去简单情形,不失一般性,设s<v≤c≤p,则式(3-2)可以进一步明确为

式(3-3)的解须满足:

从而回购激励价格组合将产生供应链整体最优采购批量供应链最大预期收益,并带给零售商合同下最优期望收益=由此可知,制造商通过选择适当的批发价格c可以使得,同时,由于回购策略实现了供应链整体期望收益最大化,因此制造商收益增加。至此命题4得证。

值得注意的是,上面的建模与模型求解过程实现了系统期望收益的一个Pareto最优,并且批发价格c(与相应的回购价格b)的不同取值体现了对该Pareto最大系统期望收益在上、下游之间的不同分配比例,因此,还可以得出以下更强的结论:

推论1(主导型制造商最优回购合同) 对于具有保留效应U-R的零售商,处于领导地位的制造商通过提供基于回购激励价格组合(c,b)的合同可以获得自己的最大期望收益,同时实现供应链期望收益的Pareto最优。即制造商能够通过取特定的c(与b)实现供应链整体最优期望收益,且使零售商仅得到保留效应。

特别的,若零售商的保留效用为零,还有以下结论:

推论2对于完全从属的零保留效应零售商,具有回购合同制定权的制造商可以向其提供最大批发价格和最大回购价格c=b=p以获得全部的供应链最大收益。

此时形成的事实上是一种托卖合同(Consignment Contract)。

另一方面,对于具有相同知识水平的零售商而言,同样能够理解回购激励的制定过程和全部意义,因此对称地有以下结论:

推论3具有回购合同制定权的零售商可以通过向制造商要求最低批发价格c=v、不回购(b=0)的交易模式获取全部供应链Pareto 最优期望收益。

此时形成的事实上是一种委托生产合同。

继续考虑到当具有相同知识水平的制造商与零售商的相互地位介于上面两种极端情形之间时,下边的博弈将会自然出现:①采购(生批量的货物以实现系统收益Pareto最优;②尽可能争取到最有利的批发价格c(和相应的回购价格b)以得到最有利的供应链最优总期望收益分成即类似于3中的命题3,有下边的结论:

命题5(回购契约的讨价还价属性)

制造商与零售商之间基于由回购激励价格组合(c,b)确定的回购激励合同的Stackelberg主从博弈过程是供应链整体期望收益Pareto最优下的一个讨价还价(offer-counteroffer)模型,并具有不唯一子博弈精炼纳什均衡解。

当二者都不具备绝对领导地位时,收益的分配比例(或说批发价格c、回购价格b的取值)将取决于二者的实力对比和谈判能力等因素(各自的贴现因子),且由于该讨价还价模型中谈判时间长度是有限的,因而通常这一讨价还价的谈判过程无法得到唯一子博弈精炼纳什均衡解。

更进一步,当注意到回购激励决策是在考察供应链系统期望收益的最大化来确定最优订购批量、获取最大潜在增长空间的基础上寻找恰当的激励变量值时,可以发现其中所蕴含的合作博弈与收益共享的思想,而适当的批发价格c、回购价格b和相应的采购批量Q(I)=Q(c,b)则明确了彼此的努力程度,并提供了达到供应链系统协调后所获得的最大系统期望收益的分配比例,因此得到:

推论4(回购合同的合作博弈趋向) 回购合同是供应链收益共享合同的一种有效实现形式,可以在合作博弈的思想下进一步简化为:①寻找供应链最优供货量Q(c)*;②谈判确定系统Pareto最优期望收益的分配 系 数即回购契约为对称信息下基于合作博弈的供应链协调契约提供了一种很好的实现形式。

5.算例分析

为对以上相关结论进行示性分析、揭示决策变量及参数之间的关联,考察以下算例:

设某滑雪服的制造成本v=10元,市场销售价p=200元,相应的市场需求服从正态分布N(1 000,3002),季末积压产品的残余价值s=2元。据此可以给出不同回购合同下供应链双方的收益图表(表3-1、图3-1)。

从中可以发现:

①在任意给定的同一批发价下,制造商所给予零售商的回购价与采购量、零售商预期收益、预期回购量正向变动。

这意味着,若制造商给出的激励力度越强,零售商越有动力提高自己的采购批量规模,相应的,其期望收益也越高。但是,其中的一个值得注意的迹象就是零售商所采购的产品的预期回购数量也随着激励强度b的增大而增大,这对于制造商而言未必是好消息,即

表3-1 不同回购价格组合的效益

图3-1 供应链上、下游的预期收益对比

②在回购激励模式下,制造商的预期收益并不必然随着激励强度b的升高而增长。

对于制造商而言,最符合自身期望收益最大化原则的最优回购价格b与事先给定的批发价格c有密切联系。

③在任意给定的批发价格下,一定存在适当的回购激励价格,使得采用回购激励机制下的供应链总体预期收益比不进行回购激励情形下更大,同时,制造商和零售商双方的预期收益都有相应的增长。

④在回购价格组合(60,54.1)、(100,95.8)和(140,137.5)下,采购批量均为1 524、预期回购量均为529、供应链预期总收益均为最大值184 839,而它们都符合了4中的线性关系。

⑤三个最优价格组合中,批发价最大的(140,137.5)对应的制造商收益最大。

这几个重要结果为4中的论断提供了良好的佐证。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈