赞
踩
自然语言主要指人们交流用的正式或非正式语言,自然语言处理(NLP)则是将人类语言转换成计算机能理解的符号或将机器语言转换成人可以理解的语言。
自然语言处理是人工智能领域的一个重要研究方向,是计算机科学与语言学的交叉学科。
自然语言处理有2大核心任务,自然语言理解(NLU)和自然语言生成(NLG)。对人来说,理解语言是一件很自然的事情,但对机器来说却是很困难的事情。所有语言的鲁棒性都是导致自然语言理解的主要难点,其中包括:语言的多样性、歧义性、知识依赖、上下文关系等。
2001-2021,一文读懂NLP发展简史自然语言生成是将机器理解到的信息,一般是非文字的数据内容,转化并表达成语言传递给人的过程。这个过程面临的困难则是生成语句的语法结构、语义表达是否准确,信息是否重复等。
为了解决上述问题,一些基本的自然语言处理方向便应运而生,包括:分词、词性标注、词形还原、依赖关系解析、命名实体识别、序列标注、句子关系识别等。
除此之外,自然语言处理还包括了很多具体应用,例如:信息检索、信息抽取、文本分类与聚类、机器翻译、摘要生成、聊天机器人等等。它涉及与语言处理相关的数据挖掘、机器学习、语言学研究,以及近年来非常流行的深度学习等。
以前人们通常通过经验主义,即特征工程的方式,或统计信息的方式来解决NLP问题,文本的表征也只是简单的词袋表示(Bag-of-Words, see Figure 1),这种方式使得文本丢失了序列信息以及背景依赖信息等。
从2001年的嵌入式词向量表示到2013年的word2vec (see Figure 2),研究已经逐步解决传统词袋表征方式的无序性,并进一步丰富了表征向量的表达能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。