赞
踩
本文及后续文章是学习自然语言过程中的学习笔记,存在部分内容可能记录错误或不全情况。希望能帮助到你:D
用机器处理人类语言的理论和技术,构造计算模型,用于自然语言的分析、转换和生成。
语法层面:
语义层面:
语用层面:
根据内容、主题,自动分配预先定义的类别
方法:
根据文档间内容的相似度划分若干子集
方法:
观点性及倾向性识别、观点要素抽取
方法:
从文本中抽取指定类型的实体、关系、事件等,输出结构化数据
识别文本中有特定意义的实体
难点:类型多样,结构复杂
一个命名实体对应多种表达
方法:利用实体间交互及上下文信息进行消歧
检测、识别文本中实体间的关系
输出:(实体1,关系类别,实体2)。如:(中国,首都,北京)
方法:
从非结构化文本中抽取事件信息(时间、地点、事件)
方法:
抽取式:从原文抽取句子
生成式:根据原文的内容生成句子
协同过滤:
基于内容:使用元素的描述属性进行推荐
基于知识:事先将领域知识整理为规范的、可用的表达形式
基于检索式:问句理解->信息检索->答案抽取
基于生成式:基于seq2seq模型
把一种语言翻译成另外一种语言
注音歧义、分词歧义、指代歧义、语义歧义
结构歧义:如吃食堂
短语歧义:如:咬死猎人 的狗 | 咬死 猎人的狗
语用歧义:如:你真讨厌
真实文本的语言现象非常复杂,不规范、不干净且包含未知的语言现象,如:新词汇、新词义、新的语句结构、作者疏忽造成的错误等
指相同意思的不同表达
底层需要高层模块的指导才能准确分析;高层模块建立在底层模块分析的基础上。
解决方法:简单级联、一体化、端到端模型
认为人大部分语言知识与生俱来,由遗传决定。
研究人的语言知识结构,试图书写大量语言规则,复制语言模型。
知识库+推理系统->NLP系统
应用:应用语言规则分析句子结构;根据词的语义及词在句子结构中作用推断句子语义。
认为人从大量语言数据中学习复杂、广泛的语言知识。
研究大规模真实文本,将语言视为随机现象,用概率分布描述语言。
语料库+统计模型->NLP系统
应用:运用模型参数,估计语言现象的出现概率
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。