数据收集系统的优化方法

更新时间：2026-01-12 理论教育 版权反馈

【摘要】：图5.25MG算法流程图3.大数据环境下物流企业信用数据的存储将收集到的企业数据和确定的各个指标权重使用分布式和面向列的动态模式数据库Hbase，以及稀疏排序映射表的形式进行存储，方便对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理。表5.13权重表creditweight从收集到的数据可以看出，这些数据具有量纲不统一、数量级差距大的特点。

1.大数据环境下物流企业信用数据的收集

与传统物流企业信用评价指标中需要收集的数据相比，在大数据环境下需要从多种非结构化的大规模数据中提取评价指标相关信息，本书主要采用了基于Hadoop的Nutch爬虫技术，对法务信息（如涉案总次数等）、第三方评价（如好评次数、被评总次数等）等非结构化自然语言信息在相关网站中进行爬取和采集，而由于语言信息具有大数据量、随机性等特征，在语言学研究中常引进统计学方法来进行定量分析，所以本项目采用在大数据平台Hadoop上进行评价关键词的提取与统计，进而进行好评次数、被评总次数等指标的相关数据收集。

（1）物流企业信用评价指标中的部分客观指标可以通过物流企业的公开数据获取，主要数据收集渠道包括工商总局的全国企业信息公示系统和上市物流企业年报，可获得的数据包括：固定资产、应收款项、货币资金、营业收入、企业成立日期、注册资本、年利润总额、从业人数、管理费用、是否上市、承诺履行状况、交易经历、纳税情况、负债总额、长期借款、利润增长率（本年利润总额、上年利润总额）等。

（2）物流企业信用评价指标中的部分主观指标数据，如管理层整体素质、同行中地位、企业发展状况等，采取“访谈+问卷”的传统方式进行调研，发放问卷由相关专家打分的方法进行收集。

（3）对于赔偿次数、涉案总次数、好评次数、被评总次数等指标则需要通过大数据技术进行数据采集与分析，数据采集系统主要采用了前文介绍的Nutch爬虫技术，对爬取到的大规模非结构化文本信息使用MapReduce并行计算框架和文本分析技术进行关键词的提取与词频统计。如针对物流企业的涉案次数，其数据的主要收集渠道是各级人民法院网站中公开公示的法律裁判文书，对案件中的被告、裁判结果等关键信息进行提取，裁判文书的文本分析Java程序如附录A所示。

2.基于MG算法的第三方评价文本特征抽取

在分析处理第三方评价等文本数据时，由于来自互联网的数据时刻在更新、增长，而我们处理数据的存储空间有限，无法像处理传统数据时那样将全部数据都进行存储，需要对其关键信息识别统计后处理，对于第三方评价的文本数据处理过程如图5.24所示。

图5.24　基于MG算法的第三方评价文本特征提取过程

首先使用前文介绍的Nutch爬虫技术和分词技术对第三方评价文本内容进行采集和分词处理，之后使用MG算法对分词结果进行统计，提取出第三方评价文本中出现频率最高的k（Top-k）项频繁词，然后使用情感词分析鉴别正面评价词和负面评价词，并统计其出现次数，最后物流企业信用评价指标中的好评率指标为正面评价词次数除以正面评价词和负面评价词次数之和。

其中MG（Mirsa Gries）算法的作用是对分词结果仅进行一次扫描从而产生规模较小的k个频繁词，对小规模的频繁词进行情感词分析与对整个分词结果进行情感词分析相比，可以有效提高在大规模文本数据环境下算法的效率。

MG算法过程如下：

假设：分词结果中共有n个词汇，设置k个计数器（k≪n）。找到出现最频繁的k个词汇（Top-k）。

输入：分词结果和同义词词库

输出：k个频繁词（Top-k）

按顺序读取分词结果中的词汇x

如果已经为x或x的同义词分配计数器

则对应的计数器值+1

否则

如果计数器数量＜k

则为x设置计数器，并设置其值为1

否则所有计数器值减1，删除值为0的计数器

遍历所有词汇x后，将数据项按其频数由大到小排列并输出

MG算法流程图如图5.25所示。

图5.25　MG算法流程图

3.大数据环境下物流企业信用数据的存储

将收集到的企业数据和确定的各个指标权重使用分布式和面向列的动态模式数据库Hbase，以及稀疏排序映射表（Key/Value）的形式进行存储，方便对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理。

首先存储企业的相关信息，创建一个企业表enterprise，enterprise表的列簇及其列名如表5.12所示。

表5.12　企业表enterprise

存储完企业的相关信息后，需要将AHP算法确定的权重存储到HBase中，首先创建表creditweight，其列簇及列名如表5.13所示。创建此表后，即可将确定的权重存入权重表creditweight中。

表5.13　权重表creditweight

(https://www.daowen.com)

从收集到的数据可以看出，这些数据具有量纲不统一、数量级差距大的特点。直接拿这些数据分析会很大程度上影响分析结果，所以在此之前，我们必须先将数据标准化。数据标准化处理主要包括了数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据的问题，对于不同性质的指标直接加总求和，不能够正确地反映不同作用力的综合效果。所以，我们需要考虑改变逆向指标数据的性质，使所有的影响指标对测评方案的作用力同趋化，然后再加总求和才能得出正确的结果。一般情况下，常见的数据标准化方法包括线性标准化方法和非线性标准化方法两大类。常用的方法有“最小-最大标准化”、“Z-score标准化”、“按小数定标标准化”、指数函数、幂函数、对数函数方法等。

我们选择了“最小-最大标准化”的方法。

这种方法基于原始数据的最大值（max）和最小值（min）进行数据的标准化。将A的原始值x使用最小-最大标准化到x'。

第一步，找出这一组数据的最大值max和最小值min。

第二步，进行数据标准化处理。

对于正项指标［见公式（5.12）］：

对于负向指标［见公式（5.13）］：

这样得到的标准化之后的数据都在0到1之间，克服了负值的缺陷。需要注意的是，在做程序处理的时候可能会出现最大值max等于最小值min的情况，这时候出现分母为0的情况，出现错误。所以在程序设计时先判断最大值与最小值是否相等，若两者相等将其全置为0，因为给每个企业加上同样的分数，不影响其排名结果。最终形成的物流企业信用评价仿真数据，如附录A所示。

4.系统实现界面

根据前文所描述的内容，本书实现了一个物流企业信用分析系统，所使用的仿真数据如附录A所示，在对物流企业进行分析时需要进行四步操作，分别为企业信息查询、待评价物流企业选取、评价指标确定以及信用分析评价。

1）企业信息查询

进入物流企业信用综合评价系统时，系统会自动加载所有企业的信息，显示在页面的数据表格中，如图5.26所示。

用户需要查询自己所关注的企业时，可输入查询条件进行查询，如图5.27所示。

2）待评价物流企业选取

用户可以在查询结果或所有物流企业信息列表中，选择待评价物流企业，然后点击中间的“选中添加”按钮，将关注的企业添加到右边的“我关注的企业”数据表格中，如图5.28所示。

若用户想要在“我关注的企业”数据表格中将某企业删除，可以先选中要移除的企业，点击两个数据表格中间的“选中移除”按钮，就可将已关注的企业移回左边数据表格中。

3）评价指标确定

用户可以在“指标选择”面板中，选择自己评价物流企业信用的指标，并点击指标前的复选框，如图5.29所示。

图5.26　自动加载所有企业信息

图5.27　查询自己关注的企业信息

4）信用分析评价

用户选择完待评价企业并确定评价指标后，就可以对企业进行信用综合评价，方法是点击“确定评估”按钮，系统会在后台调用物流企业信用指标数据并执行相关算法，根据信用评价的结果（即信用得分），对照信用等级与对应评分表决定物流企业信用等级和信用状况，提供给信用的使用者或企业的决策者使用。例如某物流企业信用评价的得分为72.38分，那么它对应信用等级为AA级，信用尚佳。信用等级与对应评分如附录C所示。