第三章 运作系统能力应急管理理论分析框架
第一节 引言
2001年美国“9·11”事件和爱立信芯片供应商火灾事件,使得政府、企业和学者意识到,无论设计多么安全,供应链/网络和运作系统都无法完全避免人为灾害和自然灾难等突发事件的冲击。而2008年上半年发生在中国的两场巨灾——春节期间中国南方13省的低温雨雪冰冻灾害和四川特大地震灾难所造成的后果进一步表明,供应链、企业甚至生命在突发事件面前显的是如此脆弱。
Christopher Tang(2006)指出:在成本和效率之间进行权衡的传统供应链风险管理理论和实践过程中,极小发生概率的事件往往被忽略,理由很简单:没有人会为从来都不会发生事件的投资费用买单。然而实际情况是:过去的10多年间,企业因突发事件遭受巨大财产和社会损失的事件仍频频见于媒体。
尽管在过去的10多年间,供应链风险管理理论和实践得到了长足的发展,但是第二章关于应急管理的研究综述中指出:关于供应链应急管理——特别是对于国民经济安全和社会稳定有重要影响的大型工业生产,如石油化工、电子工业、交通运输、电网和通信等运作系统的能力应急管理仍处在一个探索阶段,尚无一个系统的能力应急管理分析和研究结构。本章的目的是为上述大型运作系统能力应急管理研究提供一个理论的分析框架,并为后续突发事件爆发后运作系统能力在受损情况下如何进行有效的应急管理奠定理论基础。
本章首先对本文的研究对象——运作系统的能力应急管理进行了概念上的界定,并基于此提出运作系统的能力应急管理的分析框架;其次,对灾后运作系统能力受损可能引发的损失进行了评估,并提出了基于损失项目图谱(loss item map,lIM)的评估思路;然后基于业务持续性计划(business continuity plan,BCP)提出了能力应急管理的执行标准模板和能力应急管理流程框图;最后,本文从面向业务流程的组织架构可视化管理、增强运作系统能力冗余度以及能力导向型企业联盟等7个方面讨论了提高运作系统能力应急管理可采取的措施。
第二节 运作系统能力应急管理概念的界定和理论分析框架
本部分对运作系统能力的概念和能力应急管理的概念进行了界定,从而为运作系统能力应急管理的分析框架奠定理论前提。
一、运作系统能力的概念界定
很多企业,例如,航空公司、电力企业、通信企业以及石油化工等流程工业的运作是强烈依赖于其系统的运作能力,并将能力视为企业生存、发展以及获取竞争优势的重要来源(Penning and Natter,2000)。然而能力作为企业一个笼统运作载体的概念,学术界和企业界对此均有不同的理解:如客户关系管理、管理流程控制、产品/服务质量控制、生产调度/服务计划、物料/成品库存控制、生产设施产能/容量、技术水平以及财务成本控制等均可视为企业的能力管理的内容。
本文的目的是研究运作系统能力的应急管理,因此,首先需要对本文的研究对象,即运作系统的能力进行界定。不同运作系统所呈现的运作能力是不同的,从运作系统的类型上看,我们可将运作系统分成两大类:一类是生产制造型的运作系统;另一类是服务运营型的运作系统。
对于生产制造型运作系统的能力研究已超过70年的历史,相关的研究成果已经非常丰富。Berg et al.(1994)、Mohebbi(2006)等学者将该类型运作系统的能力抽象成“生产-库存系统”,亦即从生产所需的原料、生产能力以及输出三个方面对运作能力进行了界定,系统能力是企业满足客户需求的最大处理能力。季建华、邵晓峰(2004)对生产制造型运作系统的能力进行了详细的界定:企业的生产运作能力是人员能力、设施能力、物料供应能力以及管理能力的综合反映。企业生产运作能力取决于投入到企业生产系统之中的各类资源的数量、质量以及组织方式,并且生产运作能力是运作系统能够完成规定产品的最大产出率。
虽然对生产制造型运作系统能力的定义存在较多的理解,但这些定义共同突出了生产制造型运作系统能力与库存之间的互补特性。从实际应用的角度出发,本文认为季建华、邵晓峰(2004)的定义是综合性最强也是最符合生产型运作系统的特点。
服务运营型运作系统的能力与生产制造型的能力有所不同,服务产品的特殊性(尤其是易逝性)使得服务型企业无法采用生产制造型企业的库存缓冲策略。Winter Nie et al.(1999)分析了服务产品区别制造产品的6大特征后指出,运作能力是服务企业可唯一用来作为缓冲的工具,是服务企业一个极为重要的管理内容。Corsten和Stuhlmann(1998)借鉴了生产能力的定义将服务能力视为一定时间内服务组织的经济或技术单元的绩效(不管类型、规模和结构)。国内对服务能力的总括性定义尚未见到,大多学者针对服务业中的重要组成部分——物流的服务能力进行了定义,如马士华和孟庆鑫(2004)将物流能力定义为由物流系统的物质结构(如配送中心的数量与规模、运输能力、分拣处理的设备能力等)所形成的客观能力以及管理者对物流运作过程中的组织和管理能力的综合反映。刘伟华(2007)则将物流服务能力定义为物流服务企业在一定的技术条件和服务水平要求下,单位时间内企业所具有的最高服务产出值,物流能力的构成包括硬能力和软能力。硬能力是指企业所需要的实体资源(如运输、仓储、流通加工、信息处理设备和网络覆盖点等),软能力指的是企业所具有的管理能力水平(如团队运作能力和客户关系能力等)。
从上述国内外学者关于生产型和服务型运作系统能力的定义上来看,虽然两类定义的侧重面不同,但从本质上看运作能力是企业对投入的资源要素进行有效组合后能够满足顾客需求,并且运作系统能达到最大的产出。因此,综合上述情况以及后续研究的需要,本文将两类运作系统的能力定义为:“运作系统能力指的是:为达到既定的顾客服务水平,运作系统对投入的运营人员、设备/设施和相关物料以及管理信息进行有效地组织、协调和管理后的最大系统输出。”
根据上述定义,图3-1给出了运作系统能力应急管理的对象,即构成运作系统能力的资源性要素(人、机、物)以及管理性要素(组织结构和运营流程),两个要素的组合对外表现为运作系统的能力输出。此外,在内外环境多变、数据海量的经营环境中,管理信息系统作为快速有效的控制措施也越来越多地纳入了运作系统能力的一个资源性要素。
图3-1 运作系统能力构成要素
二、运作系统能力应急管理概念界定
根据前述关于运作系统能力概念的定义以及国内外学者关于应急管理的理解,本文将运作系统能力的应急管理定义为:“运作系统能力应急管理是一个全过程的管理,它集中了事前预防(包括预案的制定和预防措施的采取)、事中的应急状态监控和应急预案启动以及事后的能力应急管理决策,并不断根据突发事件的发展状况对应急管理措施进行动态调整和优化。运作系统能力应急管理的目的是有效控制突发事件对系统能力的冲击以及在遭受冲击之后快速恢复能力并降低应急损失。”
当突发事件对运作系统的一些关键性资源(或要素)冲击后,对运作系统的人、机、物造成严重损失,使得系统无法在短时间内对客户的需求作出有效响应而引致高额的损失时,管理者需要对运作系统能力进行应急管理以保证在遭受突发的灾难事故后仍然能够维持业务的运作并降低应急期间的运作成本(或损失)。也即如何在突发事件造成运营能力损伤之后进行有效的应急管理,而这恰恰是本文研究关注的主要内容。结合上述定义,本文将突发事件后运作系统能力的应急管理进一步细化,并作如下描述:“突发事件发生后,管理者在对突发事件造成运作系统能力损失的评估基础上,根据运作系统内部和外部两个环境确定有效的能力恢复措施和应急方案,保证运作系统的持续进行从而减少应急期间运作系统的损失,并通过事后对应急预案的修正和完善,进而增强系统的抗突能力。”
从上述描述可以看出,运作系统能力的应急管理是针对突发事件后的反应机制和应对措施。目的是运作系统在遭受突发的灾难事故时,能够对关键性资源(或要素)从系统内部和外部进行有效的调度、恢复以及组合,从而保证系统业务持续运行。总的来说,上述描述包含了以下几个方面的内容。
首先,运作系统能力应急管理的第一个关键步骤是对能力损失的正确评价。它明确了运作系统能力因突发事件造成的受损内容和程度,并据此明确应急预案执行或者应急措施制定的方向。
其次,运作系统能力应急管理是一个针对灾难事故的响应机制。它明确了运作系统的关键资源(或要素)以及这些资源(或要素)遭受突发事件影响的程度,并据此采取相应的技术、组织、管理和协调手段。
这意味着,能力应急管理是一个系统的资源利用计划,保证运作系统关键能力受损或中断时,能够将系统内部和外部两个环境的资源组合,重新启动系统核心的运营能力,确保迅速恢复主要业务的连续性。能力应急管理不仅包含了关键能力的恢复计划,还包含了围绕业务持续性要求进行的组织设计、人力资源以及对外沟通等一些的支持保障工作。
最后,运作系统能力应急管理的目标是建立一种合理有效的成本控制方案,以平衡由突发灾难带来资产、业务、社会声誉等有形和无形的损失,保证应急期间运作损失成本最小化,并通过实际的应急管理实践不断检验和优化预防、控制措施,增强企业的抗突能力。
一个良好的能力应急管理体制能够使运作系统达到以下要求:在灾难突发时可提供一套解决问题的计划(该计划是充分和完备的,并且详细落实到该计划实施范围内的每一个单位、人员或设备)或者在无应急预案情况下可以迅速制定应急措施;在应急期间保持系统核心业务的持续性,降低灾难损失同时增强运作系统抗突能力;提高运作系统能力的弹性和柔性,增强系统整体的竞争优势;能够保证企业健康、连续增长的同时获得高度的自省能力、革新能力和反应机敏的能力;提高顾客满意度,增强企业社会形象。
三、运作系统能力应急管理分析框架
运作系统核心能力运营(或管理)部门之间的业务及其组合关系是灾后运作系统能力应急管理的出发点,管理者根据这些业务部门内的运营能力(或资源要素)受损情况以及影响波及范围进行快速有效评估,并针对不同的突发事件类型、能力损失情况和系统内外环境压力进行恢复策略的选择,目的是在能力因灾受损后如何快速启动关键运营能力,保证系统业务持续性,并最大限度地降低突发事件对运作系统的冲击。
图3-2给出了运作系统能力因灾受损的应急管理分析框架。由图3-2可以看出,运作系统能力应急管理应该包含三个部分的内容。
1.突发事件对运作系统能力造成冲击的影响评估,以便确认系统能力具体的损失程度,判断因能力缺损而导致的最大容忍损失,并进一步确认具体能力恢复的优先级。
2.从系统内外两个环境出发,确定应急期间能力应急管理的执行路线方案(如果事前拥有业务持续性计划——business continuity plan,则按照具体情况启动该方案),并对能力应急方案的执行过程进行实时监控和反馈,进一步优化系统内部能力恢复计划和外部能力应急利用计划。
3.通过事后能力应急管理执行的效果评价,进一步优化能力运营部门业务持续性计划,针对本次应急流程建立相应的应急方案库供日后参考。
本文后续内容将围绕图3-2中运作系统能力受损后的应急管理分析框架,深入研究突发事件爆发后运作能力应急管理的具体流程和应对措施。其中,关于图3-2中的能力应急管理将是本文后续数学模型重点研究的内容,目的是发现运作系统能力因突发事件受损后应急管理中的一些内在规律,以期对应急期间管理者的科学决策提供相应的理论依据。
第三节 灾后运作系统能力损失评估
当系统能力因突发事件冲击造成既成的损伤,此时最重要的是对突发事件造成能力的损失进行评估。灾后运作系统能力损失评估的目的是:快速锁定能力受损的位置和具体表现形式,基于能力损失的评估确定能力应急管理的优先级。
图3-2 运作系统能力应急管理分析框架
本部分就上述情况重点分析损失项目图谱(loss item map,LIM)的制定、能力损失可能引发的损失额度评估以及能力应急管理优先级的确定。
一、损失项目图谱制作
当突发事件对运作系统能力的损伤已经造成现实冲击的情况下,如何快速、精准地锁定系统可能发生的直接和间接的损失项目,形成一个能力应急期间的损失图谱,是正确评估突发事件对系统造成冲击的前提,是后续能力损失评价的输入。为了制定损失图谱,首先需要对能力缺损可能带来的损失项目进行分析;其次,根据突发事件后能力损失的具体情况,制定损失项目图谱。
(一)能力缺损造成的损失项目
突发事件对运作系统能力造成破坏大致可分为直接损失和间接损失两类。其中直接损失包括:财产性损失和部分业务损失;间接损失包含:因能力缺损造成的潜在业务损失和外界强加的额外损失。从应急管理的角度来看,直接和间接的损失会根据运作系统内外两个环境的影响而相互耦合,能力的直接损失可造成更大范围的损失内容。以下就针对上述损失项目进行分析。
1.财产性损失
该部分损失主要是突发事件对运作系统能力构成资源要素破坏后的财产性损失,如厂房设施损毁、设备的损毁、备件库的损毁等。该部分的损失在突发事件爆发之后已成事实,因此,该部分的损失可以得到较为精确的计算。
财产性损失将对业务损失造成冲击,并可能突破运作系统的边界,在更广范围内造成更大损失。从应急管理的角度而言,应急期间的管理并非仅对既成的财产损失进行补救,而是对因财产损失造成的潜在业务损失和外部损失进行管理。
2.能力缺损造成的业务损失
该部分的损失主要来源于突发事件可能造成应急期间系统能力输出的中断或不稳定(如产品或服务输出的中断、质量的下降、交付时间的延迟等),导致因无法对外界需求进行有效响应而可能带来的业务损失。
从供应链管理和运营管理的服务水平角度来看,是应急期间运作系统能力无法满足一定服务水平所带来的缺货成本。缺货成本来源于销售机会丧失所产生的收入损失、客户的索赔等业务损失。
3.因能力缺损引致的外部损失
该部分的损失主要来源于外界强加的成本和企业可能遭受的无形损失。
外界强加的成本来源于政府或社会相关管理部门和机构的行政惩罚或法律诉讼。例如,人员伤亡支付的赔偿、污染环境受到的法律诉讼、危害社会经济稳定遭受的行政罚款、股价大幅下跌等。
企业可能遭受的无形损失来源于因突发事件处理不善可能造成公司声誉的损害、市场份额的丧失可能导致破产或被兼并。
从以往发生的应急管理案例来看,运作系统能力缺损造成业务损失仅占总体损失很少的一部分,绝大部分的损失来源于突发事件处理不善引发的后果。例如,2000年火灾事件让爱立信的销售额仅产生4亿美元的损失,但爱立信的市场份额从12%下降至9%,股价下跌50%,爱立信被迫出售手机业务;2003年8月5日北美大停电,美国第一能源公司(AFE)股价当天下跌8.5%,10天之后市值蒸发9.3%,而因停电造成的法律诉讼至今仍缠绕着AFE;2007年因操作故障导致上海徐家汇商业区停电1小时,上海电力为此支付了超过900万元的罚金。
(二)损失项目图谱制作
由前述损失内容分析以及图3-2中运作系统能力应急管理的框架可知,损失项目图谱(LIM)制作的目的有两个方面:一是,反映突发事件的表现形式和爆发地点(即对哪些业务运作环节造成破坏);二是,还需要反映能力损失之后可能带来的潜在损失项目。因此,LIM的作用在于快速锁定尽可能准确的损失项目,用于后续损失评估以及应急决策的依据。
本文借鉴了通用汽车公司关于供应网络脆弱性风险分析图谱的思路(Elkins,2003),构建了适合突发事件对运作系统能力造成冲击之后的损失项目分析图谱,如图3-3所示。损失项目图谱(LIM)由核心层、中间层和外层三个层次的损失构成,分别对应财产性损失、业务损失和外部损失。完善的LIM能够显著提高应急管理中损失评估的速度和有效性,从而增强应急期间对损失项目的可视化操作。
图3-3中LIM的核心层由四个象限组成,分别对应突发事件对运作系统能力构成要素(人、机、物以及信息系统)造成的冲击以及损失发生的具体位置和形式。如运营人员受损对应的项目内容有管理人员、核心技术人员和运作人员,分别表示了突发事件发生的位置是在高层、中层还是基层或者是研发部门。
LIM中间层是根据核心层四个象限的综合损失在业务上的损失表现。业务损失是基于运作系统能力运营(或管理)部门之间业务流程及其组合关系的全面分析基础上得到的损失项目。该部分损失是应急期间运作系统的实际或潜在的业务丧失,反映的是事中损失项目。需要注意的是,业务损失的表现形式并不仅仅是图3-3中所列损失项目,具体的业务损失应根据具体情况进行明细。
图3-3 突发事件后运作系统损失项目图谱
LIM外层损失是核心层和中间层与外部环境之间不断相互影响所造成的结果,因能力破损造成的市场萎缩甚至是破产等外部损失是企业重点要关注的损失项目。如若没有得到有效地关注和处理,图谱的外层损失项目对于企业而言可能将是致命地打击。
最有效的LIM制作应该是事前做好充分的调研和细化,其目的是事先确定能力损伤可能引发的损失项目以及相应的损失估计。一旦突发事件发生,通过锁定突发事件发生的位置能够迅速确定损失的具体项目。通常核心层和中间层的损失项目是可以预料到的,而外层损失项目可能属于事先未预料到的内容,这就需要管理者进行快速有效的识别,而实际操作上,由于突发事件发生的偶然性和破坏的不确定性,有部分损失项目往往在突发事件发生之初是无法被识别,因此,管理者需要众人的头脑风暴来进行有效的评估并快速确定。
二、基于LIM的损失评估
一旦损失项目图谱LIM得到确定,我们就可以对突发事件造成的具体损失进行评估,而损失评估的目的是确定能力受损给企业带来业务中断和外部损失的具体数值,一旦该数值得到确认,我们就可根据损失的具体情况确定应急管理的优先次序,从而进行有效的能力应急管理。
供应链风险管理理论中对待供应链风险的评估通常是基于财务的指标,即将风险发生的概率及其影响后果折算成具体的风险金额(risk value)。然而现实情况是管理人员和操作人员根本无法预计风险发生的概率以及该风险发生后的影响,同时风险的概率值和影响对于他们而言因过于抽象而难于理解。
能力应急管理隶属于风险管理,因此,我们希望能够将突发事件发生后的能力损失与风险评估在量化指标上得到统一,即反映在财务上的损失金额。
爱立信对其2000年Albuquerque供应商火灾事件总结后指出:通过业务中断时间(business interrupt time,BIT)进行损失的评估不仅能够与传统风险评估(即以风险金额估计为代表)相兼容,而且也非常容易在管理层和基层之间达成共识并易于后续应急工作的开展[1]。
(一)业务中断时间(BIT)的解释
业务中断时间(BIT)是发生突发事件的业务部门对可能造成的业务中断时间段的估计,即业务部门的能力恢复至常态所需时间的判断。BIT的判断是基于业务部门主管和基层管理者的共同知识综合得到的结果,爱立信将其称为业务恢复所需时间。
为方便能力受损部门不同层次人员的判别,通常可以根据不同的情况事先设定多个BIT的区间供管理者进行快速地决策。如若事先未设定BIT区间,可根据专家意见或者历史经验进行设定。针对不同程度的能力损伤,可进行如下BIT的划分,如:
业务可在7天之内恢复正常: BIT<7天
业务可在8—14天之内恢复正常: BIT=8—14天
业务需要15—30天之内恢复正常: BIT=15—30天
需要注意的是,BIT的时间单位取值应根据不同运作系统的具体情况进行设定。例如,运作系统能力破坏的应急管理相对供应应急管理而言更具紧迫性的特点,因此,我们建议将BIT按天、小时为单位进行划分。例如,地震发生之后,系统设施坍塌造成人员埋没的最佳救援时间是按小时计算的[2]。
总之,一旦BIT得到确定,能力应急所需的大致时间跨度也相应确定。
(二)灾后能力损失评估
根据LIM图谱的损失内容,财产性损失已既成现实并不再发展,因此,这部分损失是可以精确得到计算。而突发事件发生后系统面临的业务损失和外部损失充满不确定性,因此,本文重点分析对这两部分损失的评估而忽略财产性损失的评估。
为明确因能力损失导致业务中断的损失,除了明确具体的业务中断时间BIT之外,还需要估计业务中断单位时间损失成本(Unit-time Interruption Loss,UIL)和在BIT内导致外部损失(External Loss,EL)的可能性。
UIL可由两部分构成:一部分是确定的业务损失(Certain Unit-time Interruption Loss,CUIL),另一部分主要是由于潜在业务丧失带来的机会损失(Opportunity Unit-time Interruption Loss,OUIL)。其中,机会损失需要由市场部门参与评估,通常为一单位时间损失,如100—200万/天。
类似的,业务中断时间内的外部损失(EL)亦可分为确定外部损失(Certain External Loss,CEL)和不确定外部损失(Uncertain External Loss,UEL)两部分。其中,UEL可利用类似风险损失的计算方式得到,即UEL其中pi对应的是发生概率。通常,不确定的外部损失由高层管理者、市场部门、财务部门和法律部门联合确定,例如,对市场萎缩的损失、股价下跌的损失、法律诉讼等。
综上所述,我们可得业务中断损失BIL的计算公式为:
一旦业务中断损失BIL得到确认,我们就可以进行能力应急管理优先级的确定。
三、能力应急管理优先级
为了更清晰地描述突发事件对运作系统能力造成的冲击程度,管理者通常需要事先确定应急状态的级别,目的是为了更好地在组织内部形成对突发事件的警惕性和紧迫性,并保证运作系统各组织层面对突发事件造成能力破坏的一致性理解。
本文借鉴了气象部门关于台风预警的级别分类,根据业务中断损失BIL的大小将应急状态分成蓝色、黄色、橙色、红色等4种状态,如表3-1所示。从应急管理的逻辑角度,处于红色应急状态的损失项目需要优先处理。
表3-1 基于业务中断损失BIL划分的应急状态(www.daowen.com)
*注:不同BIL的划分将有不同的应急状态,不同的运作系统应针对自身具体情况进行处理
尽管运作系统能力的某项构成资源要素因突发事件冲击造成的应急状态级别,由表3-1在企业各个层次进行统一的描述,然而构成BIL的各项损失所占的比例不同(外部损失可能占据大部分的损失额度),此外各项损失会因与能力缺损情况相互耦合而发生变化(能力的恢复会挽回部分损失)。如,电力系统因能力缺损将会受到行政部门的惩罚,这个惩罚可能占到电力系统能力应急成本的大部分(主要原因是相关行政部门对电力的供应是从社会安全保障的角度出发,目的是加快电力正常供应的恢复,参见2007年上海电力停电事故);另外,电力系统的损失可能来源于客户的索赔,系统能力的中断时间增长对客户造成的损失会进一步增加,因此缩短电力正常供应恢复所需时间能够避免部分客户转嫁的损失(参见2003年北美大停电AFE遭受的索赔事件)。
综上情况,本文认为从损失额度和可挽救度两个维度对损失项目进行深入分析,确定哪些损失项目是可以通过能力应急管理降低损失,哪些损失项目是无法通过能力应急管理被挽回。基于上述情况,图3-4给出了一个由7类损失项目组成的BIL额度和可挽救度的可视化柱状图。确定能力应急管理优先级的两个量化指标:绝对损失额度;损失可挽救比例。确定能力应急管理优先级的三个原则:可挽救损失项目中,绝对损失数量大的应给予较高优先级;相同损失但可挽救比例较大的应给予较高优先级;无法挽救的损失项目应给予较高优先级,并建议突发事件发生之后即刻监控,并努力从外部寻求降低该部分损失的可能性。
综上所述,能力应急管理优先级的制定需要运作系统各层组织的协同参与,对不同损失项目进行快速地损失评估是能力应急管理优先级制定的前提。一旦确定了能力应急管理的优先级,管理者就可以针对突发事件引发的不同损失项目进行能力的应急管理。
图3-4 基于损失额度和可挽救度的能力应急管理优先级可视化柱状图
第四节 基于BCP的能力应急管理
前述的灾后运作系统能力评估完成的工作包括突发事件对运作系统的哪些要素造成了冲击?冲击造成的损失如何?遭受损失的项目应该如何进行优先级管理?而能力应急管理这一步骤需要解决的是如何对具体的能力损失进行应急管理,即怎么做的问题。
本部分首先介绍了BCP的概念和内容,指出能力应急管理是一个全面的应急管理。其次,在对能力应急管理业务流程和组织架构分析的基础上,构建了能力应急管理BCP执行流程标准模板,用于解决“做什么,怎么做;出现问题,由谁解决;解决不了,向谁报告”的问题,并给出了一个较为完整的能力应急管理流程框图。
一、BCP的概念和内容
Kleindorfer和Saad(2005)指出:仅仅把应急管理局限在爆发后的应对阶段是十分有害的,应急管理的要求应该是面向组织内外的全面性管理。缺乏应对的具体方案,很可能造成管理者心理上和决策上的压力,降低了应急管理的效果和效率。
2001年美国“9·11”事件发生之后,企业高层管理者开始意识到在没有详细的针对性预案情况下,事后的应急管理反而加剧了业务的脆弱性,增加了企业的运作成本。在“9·11”事件之后的几年中,几乎全球500强的所有企业都建立了周密的业务持续性计划(Business Continuity Planning,BCP),因为实践证明BCP中针对性的应急预案设计以及应急管理原则设计对于保障企业受损后的业务持续性和降低应急管理的难度均具有非常重要的意义。
Central Advice Unit(CAU)对BCP的概念进行了界定:“业务持续性计划是为保证企业业务的正常进行和快速恢复而采取的一种特定程序,此程序要保证在面对不利事件(如自然灾害)、技术故障、操作失误以及恐怖事件时,企业能够维持对客户的服务。”
CAU认为BCP就是一个从灾难恢复到正常的计划性工作,企业实施BCP主要为了达到以下三个目的:管理能够引发灾难性的风险并最小化灾难发生的概率;当偶然事故发生时,减少业务恢复的时间;通过事先制定应急预案,减少业务恢复过程中的损失。
由此可以看出,BCP是一种策略规划,是基于对组织业务流程详细分析的基础上,确定灾难发生时能够采用多种保证业务连续管理的安全策略。Ramesh(2002)提出了BCP应该包含的5种策略:预防、响应、接续、恢复和复原。
预防的目的在于减少灾难发生的可能性。预防策略应该包括制止和预防控制,其目的是重点保护组织的弱点区域,以防止危险的发生并降低影响。
响应是当危险发生时的反应。其目的是阻止危险进一步扩大,评估危险的程度,通过与外部世界的正常通信联络挽回声誉,并启动必要的恢复时间表。
接续指针对那些对时间敏感的业务流程,决定是否在中断时立即接续或者允许一段时间后接续,但不是对所有业务进行恢复。
恢复是指启动时间敏感度稍低一些的业务流程。业务恢复的开始时间取决于这类业务流程需要的时间。
复原的目的是最终要在原有场所或者一个全新的场所完全恢复所有业务流程。
二、基于BCP的能力应急管理执行
从应急管理的流程来看,能力应急管理流程是根据能力应急管理优先级决定执行何种能力持续性计划的决策。因此,从逻辑顺序的角度来看,针对能力应急BCP计划的制定是应急预案制定阶段应该完成的工作。而突发事件发生后,则是管理者从对应的BCP计划中选择一个有效的方案进行执行的过程。
对突发事件的BCP计划的制定首先是针对运作系统能力运营过程中关键业务的确定以及分析关键业务与其他业务之间的相互关系。从业务流程的角度来看,资源要素的组合关系是运作系统能力运营流程的体现。因此,针对能力应急管理BCP的制定需要各业务部门的技术人员或者相关专家参与制定,为保证能力应急的效率和成本效应,相关的BCP计划应包含多种应对方案,以便在应急阶段拥有多种选择的可行解。从管理学的角度上而言,应急阶段制定BCP方案解决的是“怎么做”的问题。
然而BCP方案中的技术上的先进性和完善性并不一定保障能力应急期间的结果有效性。众多学者对2003年北美大停电事故进行总结后发现:尽管众多大型的运作系统和服务设施拥有良好的应急预案,然而突发事件发生后的信息传递障碍却严重地阻碍了有效应急措施的展开,应急期间企业所付的代价依然沉重,这不得不让人们思考如何在应急过程中有效传递信息的问题。
爱立信对其2001年火灾事件进行总结后认为:突发事件发生之后,组织结构的设计对信息传递的速度和真实性存在极大影响。因此,爱立信除传统的职能部门之外,专门成立了一个用于风险管理和应急管理的职能部门,一旦风险或者突发事件发生之后该部门就被激活,用于监控、负责相关的应急管理。这一方式在后续的风险管理过程中被证明是切实有效的。此外,2008年中国成立的用于应对春节低温雨雪冰冻灾害的国务院应急指挥办和应对地震的抗灾救险应急指挥办,也证实了拥有明确责任制的应急管理组织结构能够快速应对突发事件。
基于上述事实,本文认为应在企业更高的层次下成立专门的能力应急管理部门,负责协调能力应急期间运作系统内外的人、机、物的调配工作。一旦突发事件发生之后,能力运营业务部门的相关负责人必须参与到该部门,并将具体应急措施落实到具体人员。因此,从组织管理的角度来看,明确的责任制能够有效地保证命令流地传递和执行,解决的是“出现问题,由谁解决;解决不了,向谁报告”的问题。
图3-5给出了突发事件爆发后能力应急管理的组织架构图。能力应急指挥办由运作系统内部能力业务部门和外部协作单位共同组成,负责能力应急期间的协调管理工作,应急期间由其所属的风险管理部门和企业高层管理人员进行负责。而能力应急指挥办的内部和外部成员负责具体的BCP方案的执行。由图3-5可以看出,能力应急期间的组织架构实行的是矩阵制结构,实行该组织结构的原因是考虑到能力应急指挥办是一个临时性的组织,在没有发生突发事件之前该部门的存在会增加企业的管理成本,而危机解决之后该部门也没有存在的理由。
图3-5 能力应急管理的组织架构图
在明确了每个业务部门的BCP方案以及各自部门在应急管理中的组织地位,运作系统接下去的一个重要工作就是将BCP方案付诸执行,让参与能力应急管理的每一个部门明确各自应急管理需要达到的目标和水平。为了保证应急期间能力应急指挥办管理的统一性和协调性,需要将前述能力损失评估的结果和具体BCP方案的执行绘制成一个风格统一的表格,以便增强应急期间的可视化管理,如表3-2所示。
根据表3-2中不同业务部门BCP方案的组合就可以生成一套完整的能力应急方案,运作系统根据该方案执行能够确保应急过程的有效性。然而由于突发事件爆发形式的不确定性和多样性,我们并不能完全指望运作系统事先拥有完善的BCP应对计划,因此,当业务部门无对应的BCP时需要快速制定新的BCP计划。
此外,能力应急管理过程当中,运作系统能力持有水平因BCP计划的执行可逐渐恢复,应急的状态也不断发生改变,因此,需要对应急方案的执行进行评估和反馈,并对执行方案进行相应的修正。
表3-2 能力应急管理BCP执行流程标准模板
续 表
注:不同的运作系统能力应急BCP可根据具体情况采用不同的表格,但要求不同部门之间的执行流程尽量采用标准统一化处理。
图3-6给出了一个基于BCP的能力应急管理完整流程图。
图3-6 基于BCP的能力应急管理完整流程
第五节 提高运作系统能力应急管理的措施
突发事件爆发后的运作系统能力应急管理,其本质是应急期间运作系统对内部资源的调用以及外部能力临时获取的管理和利用过程,目的是为了保障应急期间运作系统能力的持续性和降低突发事件后的系统损失。而达到此目的,管理者需要在事前从组织上、业务流程上以及外部联盟契约上进行全方位的设计,以下就针对上述内容进行分析,提出一些能够在应急期间提高运作系统能力应急管理效率和效果的措施。
一、面向业务流程的合理化组织架构
由图3-1可知能力应急管理的对象是运作系统的“人、机、物以及信息系统”。因此,参与系统运营的人员是突发事件爆发后需要调配的第一要素,具体表现为不同能力受损后所需的人力资源要素是不同的,能力应急管理中的信息传递(或执行命令)依赖于组织结构,组织结构的具体表现形式是运营人员在系统中的功能地位。
为了能够保证突发事件发生之后“正确的人做正确的事”,首要的工作是分析能力应急管理中哪些业务或者操作对象是“正确的事”,这就需要对运作系统能力的构成进行技术上的全面分析以及流程上的彻底解剖。其次是针对不同的能力运营模块或单元指定“正确的负责人”用于推动运作系统的运营。从逻辑分析的角度来看,业务流程是运行基础而组织架构是上层建筑。
当突发事件爆发之后,管理者面临最紧迫的一个问题是“找到正确的人去做正确的事情”,因此,应急期间组织架构的可视化管理就具有极为重要的作用。可视化管理的理念是在能力应急管理的过程当中快速、有效地传递正确的信息,快速锁定具体的负责人(或能够完成具体任务的人员),降低应急过程中管理者因突发事件的突然性可能造成的心理压力,同时也会加快能力应急决策的速度并提高决策的质量。
“如何找到正确的人”是基于系统内部是否存在可供选择的人,突发事件对人的冲击可能导致关键性人员的伤亡。因此,管理者为了预防应急期间关键性人员的缺失,事先尽可能让不同的员工在日常工作过程当中进行技能培训和工作轮换。丰田汽车和通用公司的实践充分表明了拥有多种技能的员工能丰富应急状态中可供选择的人力资源库,能够增强企业组织和业务运营的柔性,提高突发事件对人力资源要素冲击的系统弹性。
二、增强运作系统能力的冗余度
能力的冗余是为了缓冲突发事件对运作系统能力造成的损伤,而现实的应急管理中,冗余的能力恰恰是应急调度的对象。
增强运作系统能力的冗余度并不一定要建立备用的运营设备(对很多大型的运作系统而言,通常备用设备的闲置成本会十分巨大),运作系统可以通过以下几种方式来获得运作系统能力的冗余。
(一)系统能力的冗余设计
运作系统能力在设计之初就充分考虑到突发事件发生的可能性而采取的额外备用能力;一旦能力受损备用能力就可以投入使用。系统能力的冗余设计主要是针对运营设备和设施,是属于“机”的冗余。类似于通信企业的大型交换机、发电厂的发电机组以及汽车生产线都事先采用了能力的冗余设计。
(二)系统内部能力的调度
突发事件发生后对现存能力的调度同样也能够提高运作系统能力的冗余度。例如,停止一些边际利润率低的产品生产,将这部分产能切换至高利润的产品生产;通过增加班次,短期内对系统能力进行扩容;启用一些闲置的运营设备等。
(三)战略库存的使用
对于生产型运作系统而言,能力的对外表现形式可以通过实际提供的最终产品进行满足,也就是说实物产品的库存可以通过一定的反向计算折合到相应耗费的能力数量。当突发事件发生之后,运作系统通过启用战略库存可以暂时缓解外界对系统能力的压力。这方面的实例如下,美国政府为避免战争或大型灾难发生时在短期内需要大批药品的情况,和强生公司签订契约,要求强生公司专门设定一个战略库存,保证紧急情况地药品供应。从这个角度来看,战略库存实质上在短期内提高了系统能力的冗余。
(四)可替代产品的使用
该措施来源于需求侧管理的思想,通过影响消费者的消费行为或者提供一些相同功能产品(并增加一些优惠政策),来缓解外界需求对关键能力的压力。例如,禽流感事件后,麦当劳大量削减了鸡肉汉堡,并大力对牛肉汉堡和鱼汉堡进行了促销;1999年台湾地震之后,Dell利用一些优惠机型来满足客户需求,以降低关键芯片缺失导致特定型号的缺货量。
三、能力导向型的企业联盟
突发事件发生之后,运作系统能力可能遭受重创,使其无法独自满足应急期间的外界需求,此时,运作系统需要从外界临时获取能力以降低应急期间的高额应急成本。联盟企业在应急期间可提供的能力支援形式可以是涵盖受损系统一切的能力包含要素。
越来越多的大型运作系统进行了联盟。以运营能力为导向的联盟确实能够帮助某个运作系统能力在突发事件发生之后提供必要的支援。例如,全球最大的航空公司联盟——星空联盟,联盟中某家航空公司因飞机故障可在联盟内的其他航空公司处得到支援,故障的设备也由一个综合性备件解决方案保证能从该联盟内得到快速地获取。电网之间的跨区域调度以及水火联动也是能力联盟的一个实例。本文后续的数学模型证明了,外部能力支援存在的情况下能够大幅降低运作应急期间的损失,此外,能力的联盟也可降低运作系统能力的巨额投资费用,并在一定程度上可以获得生产的柔性。
能力联盟主要有能力期权和能力的现货两种联盟形式。能力期权主要来源于事前与联盟企业达成的契约,为获得能力的应急保障,通常运作系统需要向联盟内具有相同能力的企业支付一定的期权费用。能力期权的体现方式可以是设备的使用权,也可以是最终产品的采购权。能力的现货形式主要是联盟企业可提供的富余能力,往往这类能力在获取数量和时间地保障上面存在较大不确定性。因此,可认为以能力现货联盟的企业属于一种松散型的联盟。
四、加强运作系统能力的支持与保障性措施
能力保障性措施主要是系统能力运营环节中的一些支持性物料(例如,关键的维修备件)和控制型信息系统。
除前述联盟企业可提供的维修备件保障之外,某些类型的运作系统仍然需要备件供应商的支持。例如,由于地铁运营的地域局限性,使得备件管理成为支持其正常运营的一个重要保障内容。通常某些关键的维修备件价格非常昂贵,一般系统为降低运营成本而不会设置相关备件库存(核电站除外,主要出于高度安全性的保障)。因此,快速供货应该成为选择此类维修备件供应商的一个重要指标。另外,增强系统维修部门的技术水平也是能够加快应急期间能力恢复的重要保障。
应急期间信息系统的应急管理相对来说较为简单,一般只需要将信息恢复到最后一次正常状态即可。因此,事先的数据异地备份可降低存储介质物理损伤的风险,同时聘请专家内部模拟黑客攻击也能够提高信息系统的鲁棒性。
五、模拟攻击、内部演练和报告制度
突发事件表现形式的多样性,使得我们无法预计它将以何种形式出现,在哪些位置造成破坏(往往人为灾难是在系统最薄弱的环节进行冲击)。因此,很多企业开始聘请内部人员以及外部专家对自身进行脆弱性假设攻击,以期发现问题并及时制定应对方案。正如Mitroff和Alpaslan 在Prepare for Evil一文中写道:“我们无法预期突发灾难,但我们可以降低突发灾难的基数。”
内部演练的重要性已经被许多事实所证明是应急期间降低损失的一个好方法。通过模拟的能力受损,增加管理层和员工的警惕性以及灾难发生时的经验可寻性都具有重大的帮助。例如,模拟地震的演练能够降低地震发生时的人身伤亡。
爱立信2001年火灾事件后,华尔街以及各大媒体铺天盖地的报道导致爱立信的市场份额严重丧失、股价大幅下挫,最终导致手机业务地出售。爱立信的一位经理在总结经验时说道:“不要让外人首先报道你所受的灾难。”
传播理论指出,媒体有放大事实和错误引导舆论的倾向。因此,灾难发生后的内部报告制度是非常必要的,管理者首先需要明确损失的程度,并快速组织相关部门(如公共关系部门)进行必要的舆论引导(如新闻发布会),积极寻求行政惩罚的减免以及客户的支持和理解。
六、能力应急管理方案库
在很多情况下,突发事件发生之后要求管理者从实际情况出发快速作出正确有效的决策几乎不可能。而实际的做法是,管理者通常会根据之前的应对经验来作出快速判定,而案例推理(Case-based Reasoning,CBR)正是基于对源案例地追溯和修改来对当前新问题进行方案地寻优。基于CBR的系统基本上共享一种共同的结构,并采取以下步骤进行决策:从案例库中检索恰当的案例;修改检索的案例以便应用到当前的情况;应用转换后的案例;将解已成功或失败记录的形式保存起来供将来使用。
当突发事件发生之后,对于运作系统利用CBR进行能力应急管理的一个通俗解释是,为了找到一个适应当前能力应急管理的解,首先在经验库中寻找相类似的问题,从过去的相似能力应急事件中提取方案,并将该方案作为求解实际问题的起点,通过适应性的修改来获得当前系统能力应急管理的恰当解。
正如Mitroff所言:当企业存在类似的应对案例时,能够大大降低管理者在应对突发事件过程中出现的焦虑、急躁的情绪,从而保证了应急期间的决策质量和效率。而基于案例推理的能力应急方案库地建立和优化显然是能够提高应急期间运作系统的应急效率和效果。
七、保险
突发事件发生后,能力受损的运作系统可通过事前的金融保险将风险进行转嫁,从而降低运作系统在应急期间可能遭受的巨额损失。然而我国企业对企业运营风险进行保险的意识相对国外一些大型企业而言还相对落后。以下通过一组数据进行说明。
“9·11”恐怖袭击事件发生以后,美国保险业保险公司支付了近196亿美元的赔款,承担了所有损失中将近51%的赔款,13家保险公司在此事件中破产。而2008年发生在我国四川的特大地震,保险业仅支付2.9亿美元的赔付,相对于此次地震造成5252亿元的直接损失而言,保险公司承受的损失微乎其微。
然而本书并不想对比两次突发事件中美保险业的损失,而是通过以上数据的对比反映出我国企业应对巨灾的保险意识还相当薄弱。很多企业没有意识到对其经营业务的保险能够缓解突发事件发生之后的损失,或者因为将巨额的保费投入到看似不可能发生的事件上增加了企业的运营成本。然而爱立信的实践证明了:第一,保险能够降低企业的损失,爱立信供应商火灾事件之后,保险公司向其支付了大笔的赔偿金,爱立信的部分损失得以转嫁;第二,爱立信通过建立完善的风险管理体系重新获得了保险公司的信任,并大幅度削减了保费的支出。
因此,在建立完善的能力应急措施和方案之外,保险的功能在于给企业提供了一个可以降低损失的途径。
第六节 本章小结
本章对运作系统能力应急管理理论进行了深入的分析和研究,提出了一个适应性较广、流程较为明确的一个理论分析框架。本章首先对运作系统能力的概念进行了界定;然后重点分析了灾后运作系统能力的损失评估,提出了利用损失项目图谱LIM进行快速锁定损失项目,并进行损失评价;接着提出了基于BCP方案的事后能力应急管理思路,从组织架构和业务流程上进行重点的分析,并给出了一个较为完整的能力应急管理流程图;最后,介绍了一些能够增强运作系统应急能力的措施和方案。
【注释】
[1]根据组织理论,组织内不同层次对待命令或者任务的统一理解,能够促进组织的运行效率。不同层次对灾后运作系统能力损失的统一认识能够明确能力应急管理的重点。
[2]爱立信的实践经验是将BIT的单位划分至月,其原因是爱立信将BIT用于描述供应商发生中断后可能需要的恢复时间。其原因是,作为通信设备的生产企业,爱立信在火灾发生之后采用双源供应,从某种程度上增加了供应的冗余度。此外,爱立信下达物料需求订单的提前期往往以月为单位进行计算。因此,它对供应商的物料续供的要求可放宽至月。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。