NLP 预处理_wordnetlemmatizer

作者：繁依Fanyi0 | 2024-04-06 12:25:40

踩

wordnetlemmatizer

1. nltk内置分词器

导入模块

from nltk.tokenize import LineTkoenizer,SpaceTokenizer,TweetTokenizer
from nltk import word_tokenize
1
2

首先生成对象，然后调用tokenize方法

LTokenize=LineTokenizer()#按行分词
out=Ltokenize.tokenize('my word sssss')
1
2

out=word_tokenize('my word sssss')
1

2. 词干提取

词干为没有前后缀的词的主体；
在处理一些任务如搜索问题等时，需要去除文本格式，只对词干进行处理
导入模块，生成对象

from nltk import PorterStemmer,LancasterStemmer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
porter=PorterStemmer()
out = [poter.stem(t) for t in token]
print(out)
1
2
3
4
5
6

PorterStemmer倾向于较少的去除后缀，LancasterStemmer倾向于较多的去除后缀

3. 词形还原

词元（Lemma）:一个词的中心词，与词干提取不同，词元通过字典匹配得到
词形还原（lemmatization）:是一个字典映射过程
使用WordNetLemmatizer函数完成

from nltk import WordNetLemmatizer,word_tokenize
text='my dogs were doing games happily'
token=word_tokenize(text)
lemmatizer=WordNetLemmatizer()
out=[lemmatizer(t) for t in token]
print(out)
1
2
3
4
5
6

和词干提取相比，词形还原错误更少，表现更优。

4. 停用词

停用词是指具有极少语义价值，但具有极高语法价值的词，如the, '.'等。

import nltk
from nltk.corpus import gutenberg
gb_words=gutenberg.words('austen-emma.txt')
word_filtered=[e for e in gb_words if len(e)>3]
stopwords=nltk.corpus.stopwords.words('english')
words=[e for e in word_filtered if e not in stopwords]
fdist=nltk.FreqDist(words)
print(fdist.most_common(10))
1
2
3
4
5
6
7
8

在进行复杂文本分析之前，必须进行停用词处理

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/371866?site