【摘要】:图5.9文本分类的总体结构图文本分类的具体步骤如下:第一步,从爬取到的数据中抽取所有文章的标题,将待分类文章的标题存储在一个txt文档当中,每一行代表一篇文章。第二步,采用IKAnalyzer分词法对标题文件进行分词处理,并在MapReduce机制下进行词频统计和排序。这一步的操作和热点词词频统计部分是一样的,不做详细讲解。某一篇文章的分类操作框架图如图5.10所示。
待分类文本内容同样是采用Nutch方法在网络上爬取到的,其数据文件结构也与热点词词频统计实验中相同。文本分类的总体结构图如图5.9所示。
图5.9 文本分类的总体结构图
文本分类的具体步骤如下:
第一步,从爬取到的数据中抽取所有文章的标题,将待分类文章的标题存储在一个txt文档当中,每一行代表一篇文章。
第二步,采用IKAnalyzer分词法对标题文件进行分词处理,并在MapReduce机制下进行词频统计和排序。这一步的操作和热点词词频统计部分是一样的,不做详细讲解。
第三步,词频统计结果文件的每一行代表一篇文章,每行包括该文章标题中出现的所有词以及词频。某一篇文章的分类操作框架图如图5.10所示。具体分类过程如下:(www.daowen.com)
图5.10 第i篇文章的分类操作框架图
首先,比对一篇文章中出现的每个词在词库文件中是否出现过,以及出现的类别和该词的权重,并记录下来;
其次,将该篇文章中所有词语比对结束后,形成一个由词及权重组成的稀疏矩阵;
再次,汇总每一类别中出现的该篇文章中的词语权重之和,将权重之和最大的类别记录下来,作为这篇文章的所属类别;
最后,对每一篇待分类的文章执行上述的操作,最终将所有文章分类成功。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关交通运输物流大数据分析与应用的文章