当前位置:   article > 正文

【NLP学习笔记】文本处理的常见操作_tagging, parsing and lemmatization

tagging, parsing and lemmatization

sentence segmentation(断句)

一般根据标点符号即可进行断句

tokenization(分词

人类可以很快知道“我喜欢你”里面“我”是一个词,“喜欢”是一个词,“你”是另外一个词,但是机器不知道,所以要做分词。相比较于中文,英文更容易辨识词的属性,因为英语的句子由一个个单词组成,单词之间以空格隔开,因此用空格作为分词符。

parts-of-speech tagging(词性标注)

词性标注用来区别一个单词的词性,如动词、名词、形容词等。这个标注工作可以根据一个词性分类模型得出。

lemmatization(词性还原)

英语中不同词性的单词变行有很多,比如单复数、be动词原形、动词时态等,都还原成最初的样子。

identifying stop-words(识别停用词)

如“and”,“the”,“of”等这种高频词汇造成统计噪音的词,被称为stop Words,一般会被直接过滤掉。维基百科中说明,现在虽然停用词列表很多,但一定要根据实际情况进行配置。比如英语的the,通常情况下是停用词,但很多乐队名字有这个词,这个时候就不能作为停用词了。

dependency parsing(

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/882141?site
推荐阅读
相关标签
  

闽ICP备14008679号