为了使SVM的使用不受到分类类别数量的约束,解决现实问题中对多类别进行分类的问题,人们对此做了大量研究。目前主要使用的方法总的来说可以划分为两种:第一种办法是直接利用多个二分类器,然后将其按不同办法组合起来使用以达到对多种样本类别进行分类的目的;第二种办法就是直接考虑同时对多个样本分类进行分类的问题,也叫整体优化算法,该算法通过对SVM分类器进行改进,构造N个判决函数来实现对N类样本进行分类。第二种方法给人直观的感觉看似比较简洁,但由于其算法比较复杂,在计算过程中速度较慢,分类精度也不高,因此目前第一种方法使用的比较多[13]。
(1)组合多个二分类器方法。
①一对一方法。一对一(one-aginst-one)方法是Knerr提出来的一种将过个二分类器组合使用的一种多分类方法,假设现在有N种样本数据,该方法就是将每一种样本与其余所有样本进行一对一分类,根据组合排列可知要完全将N种样本进行分类一共需要N(N-1)/2个二分类器,每个二分类器得出结果后将结果进行组合,常用的方法是投票法。该方法容易理解,结构简单,但决策时存在一种样本对应多个类别结果,这会对决策结果产生影响,容易出现错误判断,还有就是当样本种类N比较大的时候,就需要很多个二分类器,这就会导致决策阶段运算量大,决策时间会比较长。一对一方法的结构如图6-6所示。
组合多个二分类器法也叫标准算法,这种方法是直接利用二分类器的分类能力,依据对N类测试样本数据进行不同的划分情况采用多个数量二分类器对所划分好的样本类别进行分类,然后按特定方法组合起来形成一个多分类器,根据不同的组合所需要二分类器的数量也不同。常用的方法有:一对一方法、一对多方法、决策树法和决策导向无环图法。
图6-6 一对一方法结构图
②一对多方法。一对多(one-aginst-rest)方法的思想是对于N类样本数据需要训练N个二分类器,当训练第k个分类器时,把第k个样本作为一类,把其他所有类别数据统统作为另一类,这样就实现对两类数据进行训练。将N个二分类器训练好后将测试样本代入N个二分类器进行计算,然后将N个结果进行综合,计算决策函数值f(k),k=1,2,……,N,样本划分类别为:arg[max:f(k)]。相比于一对一方法,这种方法需要训练的二分类器少,决策运算简单,但是在训练每一个二分类器的时候都会运用到所有数据,这样就会造成运算量过大,而且训练时会由于两类样本数量相差较大,会发生分类超平面偏移现象,造成在决策阶段出现划分盲区现象。
③决策树法。决策树法是将训练过程和决策阶段同时进行的一种方法,以四种样本为例,决策树法的两种流程如图6-7所示。
由图6-7可以看到,不管是(a)方法还是(b)方法在对SVM(1)进行训练时,所有样本数据都进行了运算,但是随着训练次数的不断增加,需要进行训练的样本数据也在不断减少,运算量和运算时间也会相应地减少。决策树法对于类别的划分是分层次的,不存在划分盲区。但是,在对SVM(1)进行训练时,也会由于两类数据样本的数量差别较大,存在不对称问题导致超平面发生偏移,而且由于选择流程的不同分类的结果也会不同,因此分类误差会比较大[14]。
图6-7 决策树法的两种决策流程图
④决策导向无环图法。决策导向无环图支持向量机DAG-SVM(Directed Acyclic Graph)是Plantt等人提出来的,这种方法能有效地解决样本数据不对称、决策盲区等问题。该方法的训练阶段与一对一方法是一样的,同样采用将N(N-1)/2个二分类器组合起来使用,每个二分类器使用时都对应两类样本数据,只是在决策阶段采用了图论中的有向无环图思想。同样以四类样本数据为例,DAG-SVM结构图如图6-8所示[15]。(www.daowen.com)
图6-8 四类DAG-SVM流程图
在图6-8中,假设每层分类器分类正确率为p,则最终四种类别得到正确分类的概率分别为:
r(1)=r(4)=p·p·p
通过计算结果最后可以得到四种类别分类正确的概率如下:
但是决策导向无环图支持向量机的分类流程是有多种方式的,对于分类类别1、2、3、4的排列不同分类流程也是不一样的,由排列组合知识可以知道对于N种类别的排列方法有N!种,因此N种类别的分类问题是有N!种分类流程的,采用不同的流程会有不同的分类结果,因此针对如何选择合适的DAG-SVM结构才能得到最佳的分类效果,有人提出了基于节点优化的多分类扩展策略[16]。
(2)直接法。
直接法不把多类问题分成多个二分类问题然后再进行组合,而是直接对N种样本数据同时进行处理,通过构造N个判决函数来把N种样本数据区分开来。Weston等人针对多分类问题提出一个新的二次规划问题:
相比于一对一方法和一对多方法,直接法是一个计算非常复杂的过程,训练过程所消耗的时间要比一对一和一对多方法多很多,而且经过实际的应用也验证了直接法的分类精度也不比间接法高[17]。因此在实际应用中经常采用一对一方法,但是一对一方法在决策过程也会出现不可判别的情况,所以说如何将多种类别样本进行分类的多分类方法依然是支持向量机理论研究的重要内容。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。