决策树起源于概念学习系统(Concept Learning System,CLS)。决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
(一)决策树的含义
决策树一般都是自上而下生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图(见图6-8)。
图6-8 决策树示意图
选择分割的方法有好几种,但是目的都是一致的,即对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是一叉的,也可以是多叉的。有些规则的效果可以比其他的一些规则要好。
(二)决策树的构成要素
决策树的构成有四个要素:(1)决策节点;(2)方案枝;(3)状态节点;(4)概率枝。
图6-9 决策树的构成要素
由图6-9不难发现,决策树一般由方块节点、圆形节点、方案枝、概率枝等组成,方块节点称为决策节点,由节点引出若干条细支,每条细支代表一个方案,称为方案枝;圆形节点称为状态结点,由状态节点引出若干条细支,表示不同的自然状态,称为概率枝。每条概率枝代表一种自然状态。在每条细枝上标明客观状态的内容和其出现概率。在概率枝的最末梢标明该方案在该自然状态下所达到的结果(收益值或损失值)。这样树形图由左向右、由简到繁展开,组成一个树状网络图。
(三)决策树法的决策程序
第一步,绘制树状图,根据已知条件排列出各个方案和每一方案的各种自然状态。
第二步,将各状态概率及损益值标于概率枝上。
第三步,计算各个方案期望值并将其标于该方案对应的状态结点上。
第四步,进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。
决策树法在决策中有着广泛的应用。例如,某企业在下年度有甲、乙两种产品方案可供选择。每种方案都面临滞销、一般和畅销三种市场状态。各状态的概率和损益值如表6-1所示。
表6-1 企业产品方案一览表
根据给出的条件,运用决策树法选择一个最佳决策方案,解题方法如图6-10所示。
图6-10 企业产品决策树
由图6-10可以看出,决策树法的决策过程就是利用了概率论的原理,并且利用一种树形图作为分析工具。其基本原理是用决策点代表决策问题,用方案枝代表可供选择的方案,用概率枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较'为决策者提供决策依据。
(四)决策树的优点
决策树易于理解和实现,在学习过程中不需要使用者了解很多的背景知识,就能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。
对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
(五)决策树的缺点
(1)对连续性的字段比较难预测。
(2)对有时间顺序的数据,需要很多预处理的工作。
(3)当类别太多时,错误可能就会增加得比较快。
(4)一般的算法分类时,只是根据一个字段来分类。
(六)决策树的适用范围
科学的决策是现代管理者的一项重要职责。管理实践中,常遇到的情景是:若干个可行性方案制订出来了,分析一下内、外部环境,大部分条件是已知的,但还存在一定的不确定因素。每个方案的执行都可能出现几种结果,各种结果的出现有一定的概率,决策存在着一定的胜算,也存在着一定的风险。这时,决策的标准只能是期望值,即各种状态下的加权平均值。针对上述问题,用决策树法来解决不失为一种好的选择。
决策树法作为一种决策技术,已被广泛地应用于投资决策之中,它是随机决策模型中最常见、最普及的一种方法,此方法有效地控制了由决策带来的风险。所谓决策树法,就是运用树状图表示各决策的期望值,通过计算,最终优选出效益最大、成本最小的决策方法。决策树法属于风险型决策方法,不同于确定型决策方法,两者适用的条件也不同。应用决策树决策方法必须具备以下条件。
(1)具有决策者期望达到的明确目标;
(2)存在决策者可以选择的两个以上的可行备选方案;
(3)存在着决策者无法控制的两种以上的自然状态(如气候变化、市场行情、经济发展动向等);
(4)不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来;
(5)决策者能估计出不同的自然状态发生概率。
(七)决策树中的常用方法
1.C&R树
C&R树(C1assification and Regression Trees),即分类与回归树,是一种基于树的分类和预测方法,模型使用简单,易于理解(规则解释起来更简明),该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区将训练记录分割为组。然后,可根据使用的建模方法在每个分割处自动选择最合适的预测变量。如果节点中100%的观测值都属于目标字段的一个特定类别,则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段,也可以是分类字段;所有分割均为二元分割(即分割为两组)。分割标准用的是基尼系数(Gini Index)。
2.QUEST决策树
QUEST决策树的优点在于:运算过程比C&R树更简单有效。QUEST节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型C&R决策树分析所需的处理时间,同时减小分类树方法中常见的偏向类别较多预测变量的趋势。
3.CHAID决策树(www.daowen.com)
CHAID(Chi-squared Automatic Interaction Detection,卡方自动交互检测)决策树是通过使用卡方统计量识别最优分割来构建决策树的分类方法。它有如下优点。
(1)可产生多分支的决策树;
(2)目标和预测变量字段可以是范围字段,也可以是分类字段;
(3)从统计显著性角度确定分枝变量和分割值,进而优化树的分枝过程(前向修剪);
(4)建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分。
4.C5.0决策树
C5.0决策树优点包括如下内容:
(1)执行效率和内存使用改进、适用大数据集;
(2)面对数据遗漏和输入字段很多的问题时非常稳健;
(3)通常不需要很长的训练次数进行估计,工作原理是基于产生最大信息增益的字段逐级分割样本;
(4)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
(5)允许进行多次多于两个子组的分割,目标字段必须为分类字段。
(八)决策树的应用举例
1.利用决策树评价生产方案
决策树是确定生产能力方案的一条简捷的途径。决策树不仅可以帮助用户理解问题,还可以帮助解决问题。决策树是一种通过图示罗列解题的有关步骤以及各步骤发生的条件与结果的一种方法。近年来出现的许多专门软件包可以用来建立和分析决策树,利用这些专门软件包,解决问题就变得更为简便了。
决策树由决策节点、机会节点与节点间的分枝连线组成。通常,用方框表示决策节点,用圆圈表示机会节点,从决策节点引出的分枝连线表示决策者可做出的选择,从机会节点引出的分枝连线表示机会节点所示事件发生的概率。
在利用决策树解题时,应从决策树末端起,从后向前,步步推进到决策树的始端。在向前推进的过程中,应在每一阶段计算事件发生的期望值。需特别注意:如果决策树所处理问题的计划期较长,计算时应考虑资金的时间价值。
计算完毕后,开始对决策树进行剪枝,在每个决策节点删去除了最高期望值以外的其他所有分枝,最后步步推进到第一个决策节点,这时就找到了问题的最佳方案。
以南方医院供应公司为例,看一看如何利用决策树规划合适的生产能力计划。南方医院供应公司是一家制造医护人员的工装大褂的公司。该公司正在考虑扩大生产能力。它可以有以下几个选择:①什么也不做;②建一个小厂;③建一个中型厂;④建一个大厂。新增加设备将生产一种新型大褂,目前该产品潜力或市场还是未知数。如果建一个大厂且市场较好就可实现$100 000的利润。如果市场不好则会导致$90 000的损失。但是,如果市场较好,建中型厂将会获得$60 000的利润、小型厂将会获得$40 000的利润,市场不好则建中型厂将会损失$10 000、小型厂将会损失$5 000。当然,还有一个选择就是什么也不干。最近的市场研究表明,市场好的概率是0.4,也就是说市场不好的概率是0.6。图6-11为南方医院供应公司的决策树。
图6-11 南方医院供应公司的决策树
在这些数据的基础上,能产生最大的预期货币价值(EMV)的选择就可找到。
EMV(建大厂)=0.4×($100 000)+0.6×(-$90 000)=-$14 000
EMV(中型厂)=0.4×($600 000)+0.6×(-$10 000)=+$18 000
EMV(建小厂)=0.4×($40 000)+0.6×(-$5 000)=+$13 000
EMV(不建厂)=$0
根据EMV标准,南方公司应该建一个中型厂。
2.决策树法在投标决策中的应用
施工企业在同一时期内有多个工程项目可以参加投标,由于企业资源条件有限,不可能将这些项目都承包下来,这类问题可用分析风险决策的决策树法进行定量分析。决策树的分析最佳方案过程,是比较各方案的损益值。哪个方案的期望值最大,则该方案为最佳方案。
例如,某市属建筑公司面临A、B两项工程。因受本单位资源条件限制,只能选择其中一项工程投标或者这两项过程均不参加投标。根据过去类似工程投标的经验数据,A工程投高标的中标概率为0.3,投低标的中标概率为0.8,编制该工程投标文件的费用为4万元;B工程投高标的中标概率为0.5,投低标的中标概率为0.6,编制该工程投标文件的费用为2.5万元。
各方案承包的效果、概率、损益值如表6-2所示。
表6-2 各投标方案效果、概率、损益值表
计算决策树上各机会点的期望值,并将计算出来的期望值标注在各机会点上方(见图6-12)。
图6-12 建筑公司投标的决策树
机会点⑦:180×0.3+120×0.5+60×0.2=126
机会点②:126×0.3-4×0.7=35
机会点⑧:125×0.2+75×0.7+0×0.1=77.5
机会点③:77.5×0.8-4×0.2=61.2
机会点⑨:115×0.4+75×0.5+40×0.1=87.5
机会点④:87.5×0.5-2.5×0.5=42.5
机会点⑩:90×0.2+40×0.5-20×0.3=32
机会点⑤:32×0.6-2.5×0.4=18.2
机会点⑥:0
选择最佳方案:方案枝上机会点③的期望值最大(61.2),为最佳方案,故该施工企业应对A工程投低标。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。