理论教育 构建优秀行业知识图谱的关键技术

构建优秀行业知识图谱的关键技术

时间:2023-05-25 理论教育 版权反馈
【摘要】:如果是结构化数据或半结构化数据,则可以用其他的一些方法来进行图谱构建,不一定严格按照知识标注、知识获取等相关步骤。这个流程图主要聚焦在非结构化数据构建知识图谱,数据源包括文本数据、图像数据、视频数据和音频数据。图5电力输电线路的知识标注图6所示为通过关系数据库中的结构化数据最终形成以图数据库的形式进行存储的一张知识图谱。

构建优秀行业知识图谱的关键技术

知识图谱构建是一个比较有挑战,且工作量比较大的工程。知识图谱质量的高低直接决定了对上层应用赋能的效果。而聚焦于行业时,可以把这个行业的知识或知识图谱建设的范围进行一定的限制,这样可以在一定程度上保证知识图谱的质量,也可以保证知识图谱对上层赋能的效果。

图4是面向行业知识图谱构建的流程图。当然这个流程图主要是面向于非结构化的、多源异构的数据。如果是结构化数据(如关系数据库)或半结构化数据(如互联网上的一些表格等),则可以用其他的一些方法来进行图谱构建,不一定严格按照知识标注、知识获取等相关步骤。这个流程图主要聚焦在非结构化数据构建知识图谱,数据源包括文本数据、图像数据、视频数据和音频数据。

图4 知识图谱构建流程图

行业知识图谱的构建技术包括:

第一步是根据业务需求进行图谱构架设计,也就是知识的建模。图谱构架设计包括图谱里面需要包含哪些实体、这些实体之间的层级结构以及实体与实体之间的关系。

第二步是知识标注,这是数据治理的一个关键步骤。利用专业的标注工具对实体、关系和属性进行标注。在标注过程中,可以利用一些方法来加速这个过程,比如说引入主动学习和强化学习等机器学习方法加快标注的结果,且底层的机器学习模型在不断迭代学习、优化知识抽取的效果。学习后的模型可以对部分数据进行预标注,标注人员只需要对这些数据进行修正或小规模修改。所以说这是一个不断迭代优化、不断加速标注的过程。

第三步是利用这些标注数据作为训练数据,进行相关模型的训练,即对实体、关系和事件进行模型训练。

第四步是知识融合,即对实体进行对齐,把表达不同但语义相同的实体进行聚合。

第五步是知识存储。知识图谱一个典型的存储形式是图数据库,或者是以属性图的形式进行存储。但是实际在大部分场景下,尤其在工业应用场景下,经常采用混合图数据库,针对不同的数据而采取不同的存储方式来进行存储。比如说,知识图谱用图数据库存储,其他数据以文件形式或者以关系数据库的形式进行存储,这也是在实际工业领域做落地的产品或项目的时候采取的一种常规方法。

最后两步分别是知识计算和知识应用。知识计算主要是为上层的知识应用提供基础服务。知识计算可在知识图谱上作图计算、图挖掘、图嵌入、图推理以及在图上做一些规则引擎等,来支撑上层的可视化的交互、关联的分析与挖掘、智能问答与检索、推荐营销以及相关的知识库补全等。(www.daowen.com)

下面通过电力知识图谱构建案例来展示行业知识图谱的构建过程。

第一步要确定知识图谱的构架。知识图谱的构架需要依托于业务需求、产品需求及现有的数据特点进行设计。不同的业务需求、不同的数据特点可以设计出不同的知识图谱,但是可以寻求一个平衡。知识图谱可以设计的非常复杂,也可以设计得相对简单一些,复杂的程度是和业务需求息息相关的。如果业务的一期、二期或者在产品的功能需求范围里,知识图谱构架是能够满足的,那么知识图谱不需要一开始就设计得非常复杂,因为复杂的知识图谱对后面的标注或模型抽取带来的难度和工作量都是非常大的。因此,知识图谱的构架设计一定要围绕业务的需求和现有数据的特点来进行。设计的原则有:业务原则;分析原则;效率原则,即达到效果与工作量的平衡;冗余原则,因为知识图谱随着业务系统与数据的发展,会有一些新的或者短期内可能没有用到的构架、实体和语义关系,这个时候可以适当地做一些冗余。

第二步是数据的治理,即针对不同类型的数据采取一些数据预处理、知识抽取的技术。面对非结构化数据,主要是利用深度学习,而这个方法对标注工作量和算法模型要求是很高的;对于半结构化的数据,如Excel或网页版的表格等,可以采用包容器的方法去做;对于结构化数据,基本上是从关系数据库里面对结构化的表进行转化,通过一个图映射就可以形成知识图谱。知识图谱一般情况下以RDF三元组、属性图、多元组事件和时序信息进行表示。在数据治理到知识抽取的中间过程需要对数据进行标注。首先要有标注需求,当然大部分情况下标注需求也不是一开始就能完全确定的,这也是一个迭代过程,也是根据业务与数据的特点进行需求的制定。有了需求之后就要进行标注的规范,拿标准规范进行团队的试标、培训,再进入实质标注工作,最后做审核校验,这就实现了数据的标注。而标注好的数据为知识抽取提供了一个良好的数据质量的保证。图5所示为针对电力输电线路做知识标注的过程,其中绿色方框为标注的实体。知识抽取最关键的一环就是命名实体识别(named entity recognition,NER)。NER就是识别出实体之后,再去做实体和实体之间关系的识别。知识抽取中NER模型一般可以采用BILSTM-CRF等深度学习网络模型。

图5 电力输电线路的知识标注

图6所示为通过关系数据库中的结构化数据最终形成以图数据库的形式进行存储的一张知识图谱。基于构建的电力线路知识图谱进一步构建了一个智能问答应用,应用的基本功能有:

一、多轮对话。顾名思义,就是机器和人之间可以就一个主题进行多轮对话、交流,或者说可以利用上下文的信息进行问题的补充和问题的追问,进而找到相关答案的对话。

二、多模态数据交互。知识图谱融合了多源异构的文本、声音和图像,可以以问题的形式对其检索和答案推送。

三、故障历史的查询。把故障内容进行知识结构化和信息连接,可以挖掘故障模式及分析故障趋势等。

图6 知识储存

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈