【摘要】:本章采用本体学习技术自动构建领域本体。本体学习是半自动或者自动构建本体的一系列技术及方法,用于解决手工建立本体容易导致知识获取的瓶颈等问题。常用的方法包括基于字典的本体学习方法,基于文本的本体学习方法,基于半结构化数据的本体学习方法,以及基于知识库的本体学习方法[161-164]。根据本体的定义,概念具有规范化的表达形式,是领域内共同认可的词语。
本章采用本体学习(Ontology Learning)技术自动构建领域本体。本体学习是半自动或者自动构建本体的一系列技术及方法,用于解决手工建立本体容易导致知识获取的瓶颈等问题。常用的方法包括基于字典的本体学习方法,基于文本的本体学习方法,基于半结构化数据的本体学习方法,以及基于知识库的本体学习方法[161-164]。
本书主要结合基于文本和基于半结构化数据的方法,进行本体学习。先根据已有的半结构化产品参数说明,提取领域本体的基本概念,以实现领域本体的初始化;再结合产品评论的文本特点,利用信息检索领域常用的语义计算方法,量化领域概念之间的关系,实现领域本体的自动学习与扩展。
根据本体的定义,概念具有规范化的表达形式,是领域内共同认可的词语。所以本书依据特定领域中通用的说明性文本,进行领域概念的抽取。目前国内各大电子商务网站(如中关村在线和淘宝商城等)都使用较为统一的产品参数说明,为用户提供不同产品之间的对比评测服务。因此,本书从产品参数说明中提取面向产品评论的领域概念。(www.daowen.com)
产品参数是以词组的形式存在。词组中包含一个中心词,以决定该词组的基本含义。由于领域概念一般是产品评论中的常用特征词,所以本书通过词语在评论中出现的频率(Term Frequency,TF)来确定词组的中心词。将词频较高的中心词作为产品的基本概念,而其他词语则被当作与概念相关的领域术语。若有两个或以上的单词具有相近的词频,则将该词组作为领域概念进行提取。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。