UCAS - AI学院 - 自然语言处理专项课 - 第13讲 - 课程笔记_ucas自然语言处理

作者：我家小花儿 | 2024-06-24 02:18:48

踩

ucas自然语言处理

信息抽取

概述

互联网和社交媒体快速发展
- 文本信息资源极大丰富
- 信息过载问题日益显现
高效准确的信息获取手段成为必需
- （文本）信息抽取技术应运而生
- 非结构化文本数据占据约80%
信息抽取
- 从非结构化、半结构化的自然语言文本中抽取实体、实体属性、实体间的关系以及事件等事实信息，并形成结构化数据输出的一种文本数据挖掘技术
信息抽取 vs 信息检索
- 信息检索：查询——文档——检索相关结果
- 信息抽取：文档——相关信息抽取和整理（关系、事件、属性）
主要任务
- 实体识别
- 实体消歧
- 关系抽取
- 事件抽取

命名实体识别

定义

命名实体识别
- 信息抽取的一项基础任务
- 自动识别出文本中指定类别的实体，包括人名、地名、机构名、日期、时间和货币等七类
- 时间、日期、货币和百分比规则性强，利用模板或正则表达式基本可处理
- 人名、地名和组织机构名是关注重点
任务
- 实体检测：检测出文本中哪些词串属于实体，即发现实体的左边界和右边界
- 实体分类：判别检测出的实体具体属于哪个类别

典型方法

基于规则的方法
- 人名：可借助姓氏和名字用字词典，结合称谓等线索词识别大部分的人名
- 地名和组织结构名：右边界明显，但左边界模糊，往往收集一个机构名库和地名库
- 不足
  - 一个实体属于多个类别
  - 既是普通词也是实体
  - 实体缩写变化多、嵌套情形复杂
  - 新的命名实体层出不穷
基于有监督的机器学习方法
- 训练数据的格式化：BIOS格式化，格式为实体类别+位置类别（LOC-I）
- 测试：每一个字符打上标签，同时包含实体类别和位置类别
- 基于隐马尔科夫模型的命名实体识别
  - 问题形式化
    - 句子观测 $x_0, \dots, X_T$
    - 搜索标签序列 $y_0 \dots, y_T$
    - 目标为最大后验概率 $\prod_{t = 0}^T P(y_t| y_{t - 1}) p(x_t | y_t)$
    - $p(y_t | y_{t - 1}) = \frac {\operatorname{count}(y_{t - 1}, y_t)}{\operatorname{count}(y_{t - 1})}$
    - $p(x_t|y_t) = \frac{\operatorname{count}(x_t, y_t)}{\operatorname{count}(y_t)}$
  - 测试
    - 给定待标注句子 $X$ ，利用Viterbi算法搜索标签序列 $Y$
    - $\delta_t(y) = \max_{y^\prime} [\delta_{t - 1}(y^\prime) p(y|y^\prime)] p(x_t | y)$
    - $\varphi_t(y) = \arg\max_{y^\prime} [\delta_{t - 1}(y^\prime) p(y|y^\prime)] p(x_t | y)$
- 基于条件随机场的命名实体识别
  - $\frac 1Z \exp\left\{ \sum_{t = 1}^T \sum_k \lambda_k f_k(y_{t - 1}, y_t, X t) \right\}$
  - 根据训练数据构造特征函数，同时训练权重
  - 词汇化特征、标签特征、标签词汇组合特征、词典特征
- 基于深度神经网络的命名实体识别
  - 分布式向量表示 + LSTM + CRF

自动评价

选择一个无关测试文本 $D_T$ ，人工标注视为GT $D_R$ ，得到的系统输出为 $D_S$
$\operatorname{count}(correct)$ ： $D_R$ 和 $D_S$ 中完全一致的实体数目
$\operatorname{count}(spurious)$ ： $D_S$ 中识别出但 $D_R$ 中没有的实体数目
$\operatorname{count}(missing)$ ： $D_R$ 中存在出但 $D_S$ 中没有的实体数目
$\frac {\operatorname{count}(correct)}{\operatorname{count}(correct) + \operatorname{count}(spurious)}$
$\frac {\operatorname{count}(correct)}{\operatorname{count}(correct) + \operatorname{count}(missing)}$
$\frac {2 \times precision \times recall}{precision + recall}$

实体消歧

定义

一篇文档中同一实体可能有多种不同的指称（Mention）——共指消解
- 共指消解：为文本中的指称确定其具体实体的过程
不同文档中相同名称的实体也可能表示不同的含义——实体链接
- 实体链接：确定实体指称所对应的真实世界实体的过程
共指消解
- 指称类型：普通名词短语、专有名词和代词
- 目标：将文档中所有指称进行聚类，将指向同一实体的所有指称归为一类
实体链接
- 无论对于关系抽取还是事件抽取，都需要对多个文档中相同指称进行消岐
- 确定实体指称所对应的真实世界实体

典型方法

共指消解

问题形式化
- 假设文本中所有指称都已经正确识别，并构成候选指称集合 $\{m_1, \dots, m_N\}$
- 共指消解问题可视为集合 $M$ 上的划分问题，每个等价类中的所有元素指向同一个实体
基于规则的共指消解——多遍过滤法
- 用强规则对候选指称集合 $M$ 进行划分和聚类，得到新集合 $M^\prime = \{m_1^{k_1}, \dots, m_2^{k_N}\}$ ，上标 $k_i$ 相同的指称具有共指关系，合并为一个聚类（共指链），算作一个元素， $|M^\prime| \lt |M|$
- 在 $M^\prime$ 的基础上，逐渐利用准确率稍低的规则对其进行划分，不断放松约束归并具有共指关系的指称集合
- 集合
  声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/751376