搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
繁依Fanyi0
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
大数据毕业设计选题推荐(二)
2
【自然语言处理】【分布式训练及推理】推理工具DeepSpeed-Inference_deepspeed inference
3
ChatGPT论文利器:利用ChatGPT轻松撰写高质量论文_怎么用chatgpt写相关背景 命令
4
E5071C是德科技E5071C网络分析仪
5
编译libtorch示例代码时遇到依赖libomp.dylib的问题_libtorch_cpu.dylib' (no such file),
6
Python 从零开始_python 安装autotokenizer
7
[C++] 数据结构 priority_queue_优先队列默认是大顶堆吗
8
IntelliJ IDEA 发布Ai Assistant,杀麻了!
9
使用Docker安装部署Jenkins_docker 部署jenkins
10
Pytorch系列:(六)自然语言处理NLP_pytorch nlp
当前位置:
article
> 正文
关于知识图谱中抽取方法总结_知识图谱实体抽取方法
作者:繁依Fanyi0 | 2024-04-01 13:07:57
赞
踩
知识图谱实体抽取方法
数据分为结构化和非结构化
关于非结构化数据抽取
- 抽取的三种方式 - 实体抽取 - 关系抽取 - 事件抽取
1
2
3
4
实体抽取
概念:实体抽取又称命名实体识别, 其目的是从文本中抽取实体信息元素, 包括人名、 组织机构名、 地理位置、 时间、 日期、 字符值和金额值等
实体抽取方法:
1、基于规则的方法:早期的命名实体识别方法主要采用人工编写规则的方式进行实体抽取。 这类方法首先构建大量的实体抽取规则, 一般由具有一定领域知识的专家手工构建。 然后, 将规则与文本字符串进行匹配, 识别命名实体。 这种实体抽取方式在小数据集上可以达到很高的准确率和召回率,但随着数据集的增大, 规则集的构建周期变长, 并且移植性较差。
2、基于统计模型的方法:基于统计模型的方法利用完全标注或部分标注的语料进行模型训练, 主要采用的模型包括隐马尔可夫模型( HMM) 、条件马尔可夫模型( CMM) 、 最大熵模型( MEM) 以及条件随机场模型(CRF),该类方法将命名实体识别作为序列标注问题处理。 与普通的分类问题相比, 序列标注问题中当前标签的预测不仅与当前的输入特征相关, 还与之前的预测标签相关, 即预测标签序列是有强相互依赖关系的。 从自然文本中识别实体是一个典型的序列标注问题。 基于统计模型构建命名实体识别方法主要涉及训练语料标注、 特征定义和模型训练三个方面。
3、基于深度学习的方法:一般地, 不同的神经网络结构在命名实体识别过程中扮演编码器的角色, 它们基于初始输入以及词的上下文信息, 得到每个词的新向量表示; 最后再通过CRF模型输出对每个词的标注结果。
关系抽取
概念:关系抽取是知识抽取的重要子任务之一, 面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。 关系抽取与实体抽取密切相关, 一般在识别出文本中的实体后,再抽取实体之间可能存在的关系。 目前, 关系抽取方法可以分为基于模板的关系抽取方法、 基于监督学习的关系抽取方法和基于弱监督学习的关系抽取方法。
关系抽取方法:
1、基于模板的关系抽取方法:早期的实体关系抽取方法大多基于模板匹配实现。 该类方法基于语言学知识, 结合语料的特点, 由领域专家手工编写模板, 从文本中匹配具有特定关系的实体。 在小规模、 限定领域的实体关系抽取问题上, 基于模板的方法能够取得较好的效果。
2、基于监督学习的关系抽取方法:基于监督学习的关系抽取方法将关系抽取转化为分类问题, 在大量标注数据的基础上, 训练有监督学习模型进行关系抽取。 利用监督学习方法进行关系抽取的一般步骤包括: 预定义关系的类型; 人工标注数据; 设计关系识别所需的特征, 一般根据实体所在句子的上下文计算获得; 选择分类模型( 如支持向量机、 神经网络和朴素贝叶斯等) , 基于标注数据训练模型; 对训练的模型进行评估。
2.1、在上述步骤中, 关系抽取特征的定义对于抽取的结果具有较大的影响, 因此大量的研究工作围绕关系抽取特征的设计展开。 根据计算特征的复杂性, 可以将常用的特征分为轻量级、 中等量级和重量级三大类。轻量级特征主要是基于实体和词的特征, 例如句子中实体前后的词、 实体的类型以及实体间的距离等。 中等量级特征主要是基于句子中语块序列的特征。 重量级特征一般包括实体间的依存关系路径、 实体间依存树结构的距离以及其他特定的结构信息。
2.2、基于深度学习的监督学习关系抽取方法:流水线方法和联合抽取方法两大类
流水线方法将识别实体和关系抽取作为两个分离的过程进行处理, 两者不会相互影响; 关系抽取在实体抽取结果的基础上进行, 因此关系抽取的结果也依赖于实体抽取的结果。
联合抽取方法将实体抽取和关系抽取相结合, 在统一的模型中共同优化; 联合抽取方法可以避免流水线方法存在的错误积累问题。
3、基于弱监督学习的关系抽取方法:基于监督学习的关系抽取方法需要大量的训练语料, 特别是基于深度学习的方法, 模型的优化更依赖大量的训练数据。 当训练语料不足时, 弱监督学习方法可以只利用少量的标注数据进行模型学习。 基于弱监督学习的关系抽取方法主要包括远程监督方法和Bootstrapping方法。
3.1、远程监督方法:远程监督方法通过将知识图谱与非结构化文本对齐的方式自动构建大量的训练数据, 减少模型对人工标注数据的依赖, 增强模型的跨领域适应能力。 远程监督方法的基本假设是如果两个实体在知识图谱中存在某种关系, 则包含两个实体的句子均表达了这种关系。
远程监督关系抽取方法的一般步骤为:
●从知识图谱中抽取存在目标关系的实体对;
●从非结构化文本中抽取含有实体对的句子作为训练样例;
●训练监督学习模型进行关系抽取
3.2、Bootstrapping 方法:Bootstrapping 方法利用少量的实例作为初始种子集合, 然后在种子集合上学习获得关系抽取的模板, 再利用模板抽取更多的实例, 加入种子集合中。 通过不断地迭代, Bootstrapping方法可以从文本中抽取关系的大量实例。
事件抽取
概念:事件是指发生的事情, 通常具有时间、 地点、 参与者等属性。 事件的发生可能是因为一个动作的产生或者系统状态的改变。 事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息, 并以结构化的形式呈现出来, 例如事件发生的时间、 地点、 发生原因、 参与者等。
一般地, 事件抽取任务包含的子任务有:
●识别事件触发词及事件类型;
●抽取事件元素的同时判断其角色;
●抽出描述事件的词组或句子;
●事件属性标注;
●事件共指消解。
事件抽取方法:
流水线方法:流水线方法将事件抽取任务分解为一系列基于分类的子任务, 包括事件识别、 元素抽取、 属性分类和可报告性判别; 每一个子任务由一个机器学习分类器负责实施。 一个基本的事件抽取流水线需要的分类器包括:
(1) 事件触发词分类器。 判断词汇是否为事件触发词, 并基于触
发词信息对事件类别进行分类。
(2) 元素分类器。 判断词组是否为事件的元素。
(3) 元素角色分类器。 判定事件元素的角色类别。
(4) 属性分类器。 判定事件的属性。
(5) 可报告性分类器。 判定是否存在值得报告的事件实例。
联合抽取方法:事件抽取的流水线方法在每个子任务阶段都有可能存在误差, 这种误差会从前面的环节逐步传播到后面的环节, 从而导致误差不断累积,使得事件抽取的性能急剧衰减。 为了解决这一问题, 一些研究工作提出了事件的联合抽取方法。 在联合抽取方法中, 事件的所有相关信息会通过一个模型同时抽取出来。 一般地, 联合事件抽取方法可以采用联合推断或联合建模的方法,联合推断方法首先建立事件抽取子任务的模型, 然后将各个模型的目标函数进行组合, 形成联合推断的目标函数; 通过对联合目标函数进行优化, 获得事件抽取各个子任务的结果。 联合建模的方法在充分分析子任务间的关系后, 基于概率图模型进行联合建模, 获得事件抽取的总体结果。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/348986
推荐阅读
article
特征选择
方法_
mrmr
筛选
变量...
文章目录一、过滤法(Filter)1. 数据缺失情况变量
筛选
2. 方差变量
筛选
3. 预测能力变量
筛选
4. 基于业务理解的...
赞
踩
article
开放开源 |
DeepKE
:
基于
深度
学习
的开源中文
关系
抽取
工具...
本文转载自公众号
:
浙大 KG。作者
:
余海阳机构
:
浙江大学代码地址: https://github.com/zjunlp/...
赞
踩
article
总结:
知识
图谱
KG+
大
模型
LLM
_
知识
图谱
大
模型
...
知识
图谱
KG+
大
模型
LLM
_
知识
图谱
大
模型
知识
图谱
大
模型
原文地址:
LLM
+KG
LLM
-b...
赞
踩
article
Transformer
_
transformer
encoder
向每层的
decoder
输入
kv...
仅是个人笔记。_
transformer
encoder
向每层的
decoder
输入
kv
transformer
en...
赞
踩
article
论文
笔记:
基于
多
粒度
信息
融合
的社交媒体
多
模态
假新闻
检测...
整理了ICMR2023 Multi-modal Fake News Detection on Social Media ...
赞
踩
article
预
训练
模型
:
BERT
_
bert
预
训练
模型
...
0.
BERT
总述
BERT
全称为 Bidirectional Encoder Representation from T...
赞
踩
article
对话
式
AI
项目
实战
系列
NLP
篇 (173)...
作者:禅与计算机程序设计艺术 1.简介随着人工智能技术的发展和落地,
对话
系统、机器学习和自然语言处理等新兴领域成...
赞
踩
article
mrmr
特征选择
算法
matlab
,
mRMR
特征选择
算法(
feature
_
selection
)的使用...
源程序下载地址,本机电脑安装java环境,具体环境安装可自行百度,google.用以实现用
mRMR
从特征集中提取特征...
赞
踩
article
T5
模型
总结
_
t5
模型
怎么用...
T5
(Transfer Text-to-Text Transformer)
模型
:一个统一框架,靠着大力出奇迹,将所有 N...
赞
踩
article
CCF
--
仓库
规划
(2023-12第一题)C++详解_
仓库
规划
cpp
...
第二步:利用一个变量flag代表有没有找到上级
仓库
,利用另外一个变量判断有没有找到比i仓大的值。第一步:创建数组,输入数...
赞
踩
article
被老师夸了的汇报,2023计算机视觉最新论文自监督_
top
-
down
visual
attentio...
ξξ。_
top
-
down
visual
attention
from
analysis
by
synthes
is
top
-...
赞
踩
article
基于
Quivr
搭建个人专属
知识库
_
quivr
基于
supabase
构建本地
知识库
...
Quivr
是一款使用生成 AI 技术来存储和检索非结构化信息的“第二大脑”,可以将其视为 Obsidian 的增强版,...
赞
踩
article
java
.
lang
.NoSuchMethodError:
org
.
json
.
JSONObject
.p...
java
.
lang
.NoSuchMethodError:
org
.
json
.
JSONObject
.put(L
java
/l...
赞
踩
article
NLP
任务
样本
数据
不均衡问题
解决方案
的总结和
数据
增强
回译
的实战展示_nlp
回译
csdn
...
目录一、
数据
层面1、欠采样(under-sampling)2、过采样二、算法层面1、权重设置2、新的损失函数——Foca...
赞
踩
article
多
模态
商业应用_
淘宝
视频
多
模态
应用...
最近在研究
多
模态
技术,发现这个领域确实是一片蓝海。所谓
多
模态
,简单的理解就是不同于 CV,NLP 在单个领域的研究,它融...
赞
踩
article
【
魔改
bkui
】
使用
bkui
过程
中
的
抓马瞬间...
前情提要“
魔改
”第一步——找回组件
的
灵魂“
魔改
”第二步——用户体验up?“
魔改
”第三步——做icon里最靓
的
仔“
魔改
”第...
赞
踩
article
Image
Segmentation
Using
Deep
Learning
: A Survey 论...
Image
Segmentation
Using
Deep
Learning
: A Survey 论文精读_image ...
赞
踩
article
ChatGLM
(
国内版
的
chatGPT
)...
ChatGLM
-6B 是一个开源
的
、支持中英双语
的
对话语言模型,基于架构,具有 62 亿参数。结合模型量化技术,用户可以...
赞
踩
article
【
深度
学习
】
GPT
系列
模型
:
语言
理解能力
的革新_
gpt
深度
学习
...
大力出奇迹的
语言
模型
!_
gpt
深度
学习
gpt
深度
学习
GPT
-1...
赞
踩
article
支持
向量
机——
SVM
细节解读_
支持
向量
机什么样
的
模型
是
最优
的
...
SVM
Support Vector Machine前言在深度学习变得火热之前,
SVM
是最受欢迎
的
模型
,因为
SVM
有充分
的
...
赞
踩
相关标签
人工智能
知识图谱
语言模型
transformer
深度学习
论文阅读
媒体
rnn
神经网络
自然语言处理
编程实践
开发语言
架构设计
mrmr特征选择算法matlab
python
c++
计算机视觉
chatgpt
嵌入式实时数据库