理论教育 文本训练的具体步骤及自定义词库形成

文本训练的具体步骤及自定义词库形成

时间:2023-06-11 理论教育 版权反馈
【摘要】:文本训练的结构图如图5.7所示。图5.7文本训练的结构图文本训练的具体步骤如下:第一步,从爬取到的数据中抽取所有文章的标题,并且按其所属分类,将属于同一类的标题存储在一个txt文档当中,一共有多少个类,就会产生多少个对应的标题文件。图5.8自定义词库形成图自定义词库文件的每一行代表一类,行中包括这一类中的所有词以及该词在这一类中的权重。

文本训练的具体步骤及自定义词库形成

根据中国物流与采购联合会的相关内容,我们将新闻资讯分为以下几类:展会信息、企业、产业分析、国际物流、物流信息化、产业安全、快递、供应链、生产资料流通、空运、地方物流、综合物流、仓储配送、物流装备、陆运、采购、宏观经济、外贸、水运。

训练样本和用于热点词词频统计的样本一样,是用Nutch爬取得到的,所爬取到的数据文件结构也与热点词词频统计实验中相同。文本训练的结构图如图5.7所示。

图5.7 文本训练的结构图

文本训练的具体步骤如下:

第一步,从爬取到的数据中抽取所有文章的标题,并且按其所属分类,将属于同一类的标题存储在一个txt文档当中,一共有多少个类,就会产生多少个对应的标题文件。同时,用一个文件来存储所有的类名称,其中,存储类名称的文件中类名的排列数序与标题文件名称中的序号是相对应的,以便于后期的计算。(www.daowen.com)

第二步,采用IKAnalyzer分词法对标题文件进行分词处理,并在MapReduce机制下进行词频统计和排序。这一步的操作和热点词词频统计部分是一样的,不做详细讲解。

第三步,根据词频统计的结果计算每个词的权重,从而得到自定义的词库文件,框架图如图5.8所示。

图5.8 自定义词库形成图

自定义词库文件的每一行代表一类,行中包括这一类中的所有词以及该词在这一类中的权重。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈