自然语言处理学习 nltk----分词_分词 nltk 符号

作者：我家小花儿 | 2024-06-17 04:13:37

踩

分词 nltk 符号

1. nltk.word_tokenize ( text ) : 直接的分词，比如：“ isn't ” 被分割为 " is " 和 “ n't ”

2. WordPunctTokenizer ( ) : 单词标点分割，比如：“ isn't ”被分割为" isn ", " ' " 和 " t "

注意WordPunctTokenizer ( )的用法。

3. TreebankWordTokenizer ( 宾夕法尼亚州立大学 Treebank 单词分割器）：比如：" isn't "被分割为" is " 和 " n't "

4. WhitespaceTokenizer() : 空格符号分割，就是split(' ')最简单的一个整体，没有被分割

5. PunktWordTokenizer() :

这个有问题，emmmm，还没解决，先留个坑吧

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

推荐阅读

article python英文情感分析包_Python 使用 NLTK 实现简单情感分析--Twitter（推特...
一、环境搭建1、安装第三方包nltkpip intall nltk==3.4.52、安装 nltk_datanltk_d...
赞
踩
article Python自然语言处理：NLTK入门指南_python nltk...
本文介绍了Python的自然语言处理库NLTK，涵盖了文本预处理、词性标注、句法分析、语义分析等基础技术，以及情感分析、...
赞
踩
article 【小沐学NLP】Python实现TF-IDF算法（nltk、sklearn、jieba）_pytho...
TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数...
赞
踩
article 深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇_drool 结合 nlp 自...
在另一半的时间里，第二个句子是从语料库中随机抽取的，标记为“假”。这是因为对于任何确定的位置偏移δ，位置 i+δ 处的位...
赞
踩
article Python自然语言处理面试：NLTK、SpaCy与Hugging Face库详解_nltk tra...
精通NLTK、SpaCy、Hugging Face库是成为一名优秀Python自然语言处理工程师的关键。深入理解上述常见...
赞
踩
article nltk.download()下载数据，错误代码11004，快速本地下载数据集的方法_nltk.do...
在下载nltk数据集的过程中，直接使用下载器会报错，原因可能是网络不稳定，需要翻墙。import nltknltk.do...
赞
踩
article nltk.download()时间过长_nltk.download()执行大约需要多长时间...
用nltk.download()下载的时候时间会很长，因为数据集太大了，我们可以直接在https://github.co...
赞
踩
article Python的Nltk包安装使用_import nltk >>> nltk.download('pu...
Python的Nltk包安装方法http://www.nltk.org/install.html使用>>> import...
赞
踩
article 【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）_英文文...
NLP自然语言处理之NLTK工具的使用，进行英文情感分析、分词、分句、词性标注（附代码）_英文文本分词工具英文文本分词工...
赞
踩