赞
踩
摘要:随着现如今计算机设备的更新,计算能力的不断提高促使深度学习再一度推上热门技术,深度学习已经广泛应用于图像处理、文本挖掘、自然语言处理等方面,在医学、交通、教育、旅游等行业发挥极大地作用。知识图谱也在深度学习的技术下得到了很大的发展。
Ps:与知识图谱相关的:深度神经网络,基于深度学习的命名实体识别和关系抽取
本博文的结构如下:
知识图谱(Knowledge Graph)最先由谷歌公司提出,其开发了基于知识图谱的项目,其将知识图谱应用在语义搜索方面,通过构建起来的知识图谱可以精准的搜索出需要的信息。谷歌给予的定义为:知识图谱是谷歌用于增强其搜索引擎功能的辅助知识库,总的来讲,知识图谱就是以结构化的信息通过图结构进行关联起来的一个知识库,而基于深度学习的知识图谱的构建是将某一领域的数据信息通过深度学习算法构建“实体——关系——实体”的三元组模型,并将其存储在图结构数据库中。
知识图谱的结构是指实现构建知识图谱的技术体系,主要分为两大数据采集与处理两部分。数据采集(Data Acquisition )是指选择构建知识图谱的“原材料”,基于深度学习的知识图谱需要大量的训练数据进行模型训练,因此数据采集是知识图谱的重要的架构之一。数据处理是指针对采集的数据进行相关算法操作,完成相应的任务。如图1,知识图谱架构主要分为如下几个流程:
数据采集(Data Acquisition ) :采集数据集一般可以通过网络爬虫、数据库获取、人工制作数据或者在相应官网上下载处理过的数据,采集的数据一般由三种形态:
知识抽取(Information Extraction):
数据采集后需要进行相应的数据操作,在知识图谱中的数据操作的关键部分是知识抽取,知识抽取主要包括三个步骤:命名实体识别(NER)、实体关系抽取(RC)和属性抽取。
命名实体识别、实体关系抽取以及属性抽取是知识图谱的构建的主要部分,也是为下一步操作做准备。
通过知识抽取工作获得的三元组往往有一定程度的错误信息。在通过NER、RC的模型优化角度考虑,模型的精度往往不是100%,因此会有被错误识别的实体或被错误分类的关系,因此为了提高知识图谱的置信度,需要对其进行处理,主要方式有:
在自主构建知识图谱过程中,知识融合往往会被忽略,但也格外重要。
通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素.再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达.然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程.知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
基于深度学习的知识图谱构建,主要应用深度学习框架,技术主要包括:
(1)数据采集:基于Python网络爬虫的数据采集;
(2)词向量训练:word-embedding训练,包括CBOW、Skip-gram模型以及哈夫曼树和负采样加速方法;
(3)命名实体识别:RNN,BiRNN,LSTM,BiLSTM,CRF;
(4)实体关系抽取:基于CNN的关系分类,基于依存关系模型的关系抽取;
(5)联合实体与关系抽取:复合神经网络模型Bi-LSTM+CRF+CNN,端到端(End-to-end)模型,注意力(Attention)机制等;
(6)深度学习框架:Tensorflow;
(7)数据标注:特征工程;
(8)图数据库:较为流行的图数据库有 Neo4j,Titan,OrientDB和 ArangoDB,本人常用的是Neo4j;
(9)涉及到数学知识:微积分、矩阵论(线性代数)、概率论与数理统计、最优化方法、泛函分析、数值优化等。
Ps:现如今知识图谱的构建在科研领域是一个庞大的课程研究体系,涉及诸多技术,本人在学习过程中将不断更新和增加相关技术以适应知识图谱的发展。
知识图谱已经广泛应用于各个领域中,常用的应用包括智能问答系统,精准搜索等,知识图谱作为当今非常火的人工智能研究方向,在未来将有很大的上升空间。
参考文献:
[1]: 段宏等. 知识图谱构建技术综述[J]. 计算机研究与发展(03).
[2]: 袁凯琦等.医学知识图谱构建技术与研究进展[j].计算机应用研究.
[3]: https://blog.csdn.net/github_37002236/article/details/81907721
博客记录着学习的脚步,分享着最新的技术,非常感谢您的阅读,本博客将不断进行更新,希望能够给您在技术上带来帮助。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。