赞
踩
这一篇论文主要介绍了自然语言处理的整体研究方法,包括五步,即获取语料、对语料预处理、进行特征化、进行模型训练和最后的建模效果评估。绝大多数研究方法都遵循这五步。
然后是自然语言处理基础研究的区分,有词法分析、句法分析、语用分析和语义分析。其中语义分析是NLP研究的重点方向。
最后是对NLP研究领域的介绍,包括信息检索(IE)、文本分类、情感分析、机器翻译、社会计算、信息抽取(IR)和自动文摘。本篇论文详细介绍了信息抽取和自动文摘的内容。
目前在各种细分的技术领域中,主要是依靠机器学习和深度学习来探索更优的方案。
原论文为自然语言处理发展及应用综述,赵京胜著。
1. 自然语言处理的研究方法
2. 自然语言的处理流程
1. 词法分析
词法分析主要包括分词、词性标注、命名实体识别和词义消歧。
词性是词汇最基本的语法属性,使用词性标注便于判定每个词的语法范畴。
词义标注、词义消歧主要解决多语境下的词义问题 ,解决一次多义。
词法分析是最核心的部分。
命名实体识别的主要任务是识别文本中具有特定意义的词语如人名、地名等,并为其添加标注。
词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。
2. 句法分析
句法分析的主要任务是为了确定句子中各组成成分之间的关系,也就是其句法结构。
完全句法分析是要通过一套完整的分析过程获得一个句子的句法树。对完全句法分析来说 ,Chomsky 形式文法是极为重要的理论,根据重写规则分为 4 级,分别是 0 型文法(无约束文法)、1 型文法(上下文有关文法)、2 型文法(上下文无关文法)和 3 型文法(正则文法)。这 4 种文法统称为短语结构语法。
浅层句法分析可分为两个子任务 :
依存句法也称从属关系语法。一个依存关系可分为核心词和依存词。核心词是一个句子的根节点,它负责支配句子中的其他词。
3. 语义分析
在词的层面上,语义分析指词义消歧;在句的层面上指语义角色标注;在篇章的层面上指共指消解。语义分析是目前NLP研究的重点方向。
4. 语用分析
语用分析有四大要素:发话者、受话者、话语内容和语境。
1. 信息检索(IR)
2. 文本分类
根据一套分类规则对文本进行自动分类的过程。
3. 情感分析
是一种通过判断文本情感极性去表征文档的技术。
4. 机器翻译
是通过计算机将一种语言翻译到其他语言。
5. 社会计算
采用互联网、大数据和机器学习等技术来研究社会问题,并寻找出一种合适的方法去解决问题。
6. 信息抽取(IE)
含义:信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程
信息抽取的过程
信息抽取的主要方法
重点的机器学习算法
Golshan提出该领域的最新方法有基于机器学习的方法和基于深度学习的方法。这些方法为信息抽取技术(IE)的出现奠定了基础。
Niklaus 等人概述了解决Open IE 的几种方法,并将他们归为三类:
Cui等人提出了一种基于编译码框架的神经 Open IE 方法,将 Open IE 转换为一个序列到序列生成的问题,其中输入序列是句子,输出序列是一种带有特殊占位符的元组。
重要结论:研究表明,神经 Open IE 系统的性能显著优于多数基线,它的精度和召回率方面也明显优于其他方法。
信息抽取的主要工作
命名实体识别(NER),主要任务是识别文本具有特定意义的词语,并为其添加相应的标注。
实体消歧就是确定某一实体所指向的某一确定实体
关系抽取作为信息抽取的核心工作,主要任务是获取实体之间在语义上的联系。
7. 自动文摘
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术。
自动文摘的目标
自动文摘的分类
自动文摘的主要过程
自动文摘主要方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。