赞
踩
原标题:百度中文纠错技术
分享嘉宾:付志宏 百度资深研发工程师
编辑整理:李润顺
内容来源:Baidu Brain & DataFun AI Talk《百度中文纠错技术》
出品社区:DataFun
注:欢迎转载,转载请注明出处。
本次分享聚焦于自然语言处理的一个传统问题-文本纠错,首先介绍文本纠错的相关背景及目前的主流技术,然后重点分享百度在文本纠错方向的主要工作,最后结合具体应用场景,展示纠错技术带来的产品体验升级。
0 1
一、纠错技术概述
语言是复杂的。每一门语言都经历了几百年,甚至几千年的长期演变和发展,形成了一套复杂的文法和句法规则。这些文法和句法规则复杂多变,例如一些词或者短语存在多音、多意、多用等现象,对语言的使用者提出了较高的要求;一旦语言使用者对语言掌握不够或者粗心大意时,则很容易发生用词不当、张冠李戴等错误。虽然这些错误看起来微不足道,但正所谓“差之毫厘,谬以千里”,特别是在某些场景(比如外交场合),即使很小的语言错误也可能带来非常恶劣的影响。
自然语言处理常见的任务包括词法分析,句法分析,语义计算等,这些任务要取得理想的结果,输入数据的准确性是基本前提,因此从NLP的整体技术角度来说,文本纠错起着保驾护航的作用。
纠错技术相对于词法分析,句法分析等受到的关注一直较小,一方面是因为文本出错的比例比较小,在一些重要场合,也有专门人员进行校验;另一方面本身问题也相对较难,其要求计算机对语言规则以及文本语义有深刻的理解。
在2000年以前,业界主要依靠长期积累的纠错规则和纠错词典来进行纠错,比如微软的文档编辑产品WORD即采用这种方法。随着机器学习技术的发展,纠错问题受到了学术界和工业界越来越多的关注,其中有两大主流方法:一种解决思路是将语言错误归类,然后采用Maxent、SVM等分类方法对这些类别进行重点识别;另外一种思路是借鉴统计机器翻译(SMT)的思想,将语言纠错等价为机器翻译的过程,即错误文本翻译为正确文本,并随之出现了一系列的优化方法。
最近几年,随着神经机器翻译(NMT)技术的快速发展,人们逐步将SMT与NMT技术结合起来解决纠错问题。最近几年中文纠错的研究也得到较多的关注和发展,并
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。