交通运输物流资讯导览系统的实现

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：训练样本和测试样本使用的是从“中国物流与采购联合会”官网的新闻资讯部分爬取的文章，每一类别的训练样本数量如表5.4所示。表5.6detailinfo表结构再次，结合训练得到的自定义词库文件对测试文本进行分类，得到分类结果，并将分类结果存储在HBase数据库中，表名为infocategory。表5.7infocategory表结构最后，将分类统计的结果从HBase数据库中取出，并以树形矩阵的形式显示出来，如图5.12所示。图5.12分类结构树形矩阵图图5.13分类下属文章详细信息图

实验运行环境为CPU 2.5GHz，内存4GB，使用JDK1.6编程。文本分类的实验结构图如图5.11所示。

pagenumber_ebook=121,pagenumber_book=114

图5.11　文本分类的实验结构图

首先，对获取到的训练样本进行文本训练，得到自定义词库文件。训练样本和测试样本使用的是从“中国物流与采购联合会”官网的新闻资讯部分爬取的文章，每一类别的训练样本数量如表5.4所示。

表5.4　训练及测试样本

pagenumber_ebook=122,pagenumber_book=115

测试样本中包含每篇文章的相关信息如表5.5所示。

表5.5　爬取到的数据文件结构

pagenumber_ebook=123,pagenumber_book=116

其次，将测试文件的相关信息存储在HBase表中，表名为detailinfo，detailinfo表用于存放文章的信息，包括文章标题、文章类别以及文章的URL地址。行键为文章的标题，该表中只有一个列簇，列簇名为“info”，列簇中包含两列，第一列列名为“URL”，用于存放该篇文章的URL地址，第二列列名为“category”，用于存放该篇文章的类别。detailinfo表结构如表5.6所示。(www.daowen.com)

表5.6　detailinfo表结构

pagenumber_ebook=123,pagenumber_book=116

再次，结合训练得到的自定义词库文件对测试文本进行分类，得到分类结果，并将分类结果存储在HBase数据库中，表名为infocategory。infocategory表用于存放文本分类后各类别名称以及文章数。行键为分类的名称，总共有19类，分别为展会信息、企业、产业分析、国际物流、物流信息化、产业安全、快递、供应链、生产资料流通、空运、地方物流、综合物流、仓储配送、物流装备、陆运、采购、宏观经济、外贸、水运。该表中只有一个列簇，列簇名为“count”，列簇中只包含一列，列名为“count”，用于存放每类的文章数。infocategory表结构如表5.7所示。

表5.7　infocategory表结构

pagenumber_ebook=123,pagenumber_book=116