文本训练的具体步骤及自定义词库形成

更新时间：2025-01-03 理论教育 版权反馈

【摘要】：文本训练的结构图如图5.7所示。图5.7文本训练的结构图文本训练的具体步骤如下：第一步，从爬取到的数据中抽取所有文章的标题，并且按其所属分类，将属于同一类的标题存储在一个txt文档当中，一共有多少个类，就会产生多少个对应的标题文件。图5.8自定义词库形成图自定义词库文件的每一行代表一类，行中包括这一类中的所有词以及该词在这一类中的权重。

根据中国物流与采购联合会的相关内容，我们将新闻资讯分为以下几类：展会信息、企业、产业分析、国际物流、物流信息化、产业安全、快递、供应链、生产资料流通、空运、地方物流、综合物流、仓储配送、物流装备、陆运、采购、宏观经济、外贸、水运。

训练样本和用于热点词词频统计的样本一样，是用Nutch爬取得到的，所爬取到的数据文件结构也与热点词词频统计实验中相同。文本训练的结构图如图5.7所示。

pagenumber_ebook=119,pagenumber_book=112

图5.7　文本训练的结构图

文本训练的具体步骤如下：

第一步，从爬取到的数据中抽取所有文章的标题，并且按其所属分类，将属于同一类的标题存储在一个txt文档当中，一共有多少个类，就会产生多少个对应的标题文件。同时，用一个文件来存储所有的类名称，其中，存储类名称的文件中类名的排列数序与标题文件名称中的序号是相对应的，以便于后期的计算。(www.daowen.com)

第二步，采用IKAnalyzer分词法对标题文件进行分词处理，并在MapReduce机制下进行词频统计和排序。这一步的操作和热点词词频统计部分是一样的，不做详细讲解。

第三步，根据词频统计的结果计算每个词的权重，从而得到自定义的词库文件，框架图如图5.8所示。

pagenumber_ebook=120,pagenumber_book=113

图5.8　自定义词库形成图

自定义词库文件的每一行代表一类，行中包括这一类中的所有词以及该词在这一类中的权重。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

有关交通运输物流大数据分析与应用的文章

文本训练的具体步骤及自定义词库形成

2025年高中生迟到检讨书如何撰写

如何撰写2025年单位员工迟到的检讨书

如何撰写2025年值日迟到的检讨书

如何撰写2025年会议迟到反思报告

2025年员工迟到的反思与检讨该如何撰写

2025年军训迟到检讨书怎么写

如何撰写2025年年度上班会议迟到检讨书

2025年会议迟到检讨书如何撰写

相关推荐