用Logistic白化权聚类算法对某交通肇事驾驶员数据库的特征进行聚类分析。
5.5.4.1 驾驶员事故倾向性聚类分析
首先,对数据库中的数据进行处理,经过清洗后得到有效样本数据55488条,去掉驾龄为“其他”的指标值不清晰数据,共剩余45323条。为方便分析,将驾驶员年龄、驾龄、性别三个特征的特征值按区间段进行替换,替换规则如表5.1所示。
表5.1 特征值替换规则说明表
将年龄、驾龄、性别三个特征进行排列组合,根据实际样本数据,将样本数据分成38个不同分类子组作为灰色聚类评价对象,故n=38。
因为在数据域内,有些子区域是空集。驾驶员特征按范围划分组别,部分组别子集可能为空集,如在第3组中,年龄18岁与驾龄15年所组成的子区域即为空集。具体分组情况如表5.2所示。
表5.2 驾驶员特征分组
续表
以事故次数、死亡人数、受伤人数作为评价指标,故p=3。为消除由于指标之间的量纲及取值范围差异对数据分析的影响,采用离差标准化方法(最小—最大规范化方法),对评价指标进行处理,对经过量纲标准化处理后的评价指标值建立评价矩阵:
根据对驾驶员驾驶行为的调查和对事故责任人所发生事故的统计分析,可将驾驶员的事故倾向性分为低、中、高这3个等级。将类数m取为3,k=1,2,3分别代表3个事故倾向性等级。分别对3个评价指标值计算累积频率。按梯度法取白化值结果如表5.3所示。
表5.3 白化值取值结果
注:k=3时所对应的白化值为虚拟白化值。
由改进的Logistic白化权函数如公式
其中λj0=-λj1,λj3=2-λj2。
应用MATLAB软件实现Logistic白化权聚类算法。白化权函数中不同b值对应不同的聚类结果,对应的聚类结果如表5.4所示。
表5.4 Logistic白化权聚类不同b值对应的聚类结果
续表
5.5.4.2 聚类算法分类效用分析
针对改进算法的不同b值聚类结果所对应的CU值如表5.5所示。
表5.5 改进算法不同b值聚类结果所对应CU值
续表
由表5.5可知当b取值为50时,聚类效果最好。又因为改进的Logistic白化权聚类算法中要求参数bj应满足
(www.daowen.com)
故最终选取bj=50,可得到式(5.5.31)
应用Logistic白化权聚类算法对38个灰色聚类评价对象的聚类结果如表5.6所示。
表5.6 Logistic白化权聚类算法聚类结果
续表
结果显示,1、3~19、25、26、27、33、38组为事故驾驶员倾向性最低的驾驶人群;21、29、30组为事故驾驶员倾向性最高的驾驶人群,其他组别的驾驶员事故倾向性等级为中等。分析可知:
(1)驾龄低于5年的25~31岁男性驾驶员和驾龄在6~15年的32~45岁男性驾驶员最容易发生交通事故,主要是因为具有了一定的驾龄之后,驾驶过程中对自己的驾驶技术过于自信,放松了警惕且此年龄段的男性社会压力和家庭压力都比较大,驾车时容易暴躁、着急,故事故倾向性最高。
(2)除了低于5年驾龄的25~31岁女性驾驶员事故倾向性为中等之外,其他所有女性驾驶员均不容易发生交通事故。
(3)驾龄低于5年的53~70岁男性驾驶员事故倾向性低主要是因为该年龄段的新手男性驾驶员操作非常谨慎,故不易发生交通事故。
(4)6年以上驾龄的60~70岁男性驾驶员驾驶技能比较娴熟且人生阅历丰富,心态平和,也不容易发生交通事故。
5.5.4.3 改进算法与传统算法分类效用分析
应用传统灰色白化权聚类算法对评价对象进行聚类分析,将聚类结果和应用Logistic白化权聚类算法得到的结果进行对比,如表5.7所示。
表5.7 聚类结果对比表
续表
由表5.7可以看出,改进算法与传统算法除第34组外,其他组别分类结果均相同。应用分类效用对改进算法与传统算法进行用分析,计算传统算法与改进算法聚类结果所对应的CU值如表5.8所示。
表5.8 传统算法与改进算法聚类结果所对应CU值比较
改进算法的CU值大于传统算法的CU值,CU值提升了5.05%,证明了改进算法的准确性与优越性。
应用改进的Logistic白化权聚类算法对驾驶员事故倾向性进行分析,并用分类效用CU评判聚类结果的好坏。结果表明,改进的Logistic白化权聚类算法聚类效果优于传统白化权聚类算法且得到如下结论:
(1)驾龄低于6年的25~31岁男性驾驶员和驾龄在6~15年的32~45岁男性驾驶员事故倾向性最高。
(2)除了驾龄低于6年的25~31岁女性驾驶员事故倾向性为中级之外,其他所有女性驾驶员均不容易发生交通事故。
(3)驾龄低于6年的53~70岁男性驾驶员和6年以上驾龄的60~70岁男性驾驶员事故倾向性低。
有趣的是,驾龄低于6年且年龄在25~31岁之间的男女驾驶员事故倾向性都是同性别的最高级。如表5.9。
表5.9 “驾龄=1,年龄=2”组别的男女性驾驶员故倾向性
符合“驾龄=2,年龄=1”组别的男性驾驶员其数量较少,不具有代表性,可以忽略不计。也就是说,事故倾向性为最低级的男性驾驶员年龄都是大于53岁以上的,或者说60岁以上的男性驾驶员都是事故倾向性为最低级的。如表5.10。
表5.10 男性驾驶员故倾向性为最低级的组别
由此可见社会和家庭压力较小的组别事故倾向性较低。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。