当前位置:   article > 正文

NLP 预处理_wordnetlemmatizer

wordnetlemmatizer

1. nltk内置分词

导入模块

from nltk.tokenize import LineTkoenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize
  • 1
  • 2

首先生成对象,然后调用tokenize方法

LTokenize=LineTokenizer()#按行分词
out=Ltokenize.tokenize('my word sssss')
  • 1
  • 2
out=word_tokenize('my word sssss')
  • 1

2. 词干提取

词干为没有前后缀的词的主体;
在处理一些任务如搜索问题等时,需要去除文本格式,只对词干进行处理
导入模块,生成对象

from nltk import PorterStemmer,LancasterStemmer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
porter=PorterStemmer()
out = [poter.stem(t) for t in token]
print(out)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

PorterStemmer倾向于较少的去除后缀,LancasterStemmer倾向于较多的去除后缀

3. 词形还原

词元(Lemma):一个词的中心词,与词干提取不同,词元通过字典匹配得到
词形还原(lemmatization):是一个字典映射过程
使用WordNetLemmatizer函数完成

from nltk import WordNetLemmatizer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
lemmatizer=WordNetLemmatizer()
out=[lemmatizer(t) for t in token]
print(out)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

和词干提取相比,词形还原错误更少,表现更优。

4. 停用词

停用词是指具有极少语义价值,但具有极高语法价值的词,如the, '.'等。

import nltk
from nltk.corpus import gutenberg
gb_words=gutenberg.words('austen-emma.txt')
word_filtered=[e for e in gb_words if len(e)>3]
stopwords=nltk.corpus.stopwords.words('english')
words=[e for e in word_filtered if e not in stopwords]
fdist=nltk.FreqDist(words)
print(fdist.most_common(10))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在进行复杂文本分析之前,必须进行停用词处理

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/371866?site
推荐阅读
相关标签
  

闽ICP备14008679号