实验运行环境为CPU 2.5GHz,内存4GB,使用JDK1.6编程。文本分类的实验结构图如图5.11所示。
图5.11 文本分类的实验结构图
首先,对获取到的训练样本进行文本训练,得到自定义词库文件。训练样本和测试样本使用的是从“中国物流与采购联合会”官网的新闻资讯部分爬取的文章,每一类别的训练样本数量如表5.4所示。
表5.4 训练及测试样本
测试样本中包含每篇文章的相关信息如表5.5所示。
表5.5 爬取到的数据文件结构
其次,将测试文件的相关信息存储在HBase表中,表名为detailinfo,detailinfo表用于存放文章的信息,包括文章标题、文章类别以及文章的URL地址。行键为文章的标题,该表中只有一个列簇,列簇名为“info”,列簇中包含两列,第一列列名为“URL”,用于存放该篇文章的URL地址,第二列列名为“category”,用于存放该篇文章的类别。detailinfo表结构如表5.6所示。(www.daowen.com)
表5.6 detailinfo表结构
再次,结合训练得到的自定义词库文件对测试文本进行分类,得到分类结果,并将分类结果存储在HBase数据库中,表名为infocategory。infocategory表用于存放文本分类后各类别名称以及文章数。行键为分类的名称,总共有19类,分别为展会信息、企业、产业分析、国际物流、物流信息化、产业安全、快递、供应链、生产资料流通、空运、地方物流、综合物流、仓储配送、物流装备、陆运、采购、宏观经济、外贸、水运。该表中只有一个列簇,列簇名为“count”,列簇中只包含一列,列名为“count”,用于存放每类的文章数。infocategory表结构如表5.7所示。
表5.7 infocategory表结构
最后,将分类统计的结果从HBase数据库中取出,并以树形矩阵的形式显示出来,如图5.12所示。点击树形矩阵中的任意部分,该类别下的所有文章会在表格中显示出来,如图5.13所示。
图5.12 分类结构树形矩阵图
图5.13 分类下属文章详细信息图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。