赞
踩
现在我们将学习文本预处理。通常情况下,语言数据是带有噪声的,是不干净的,你可能是从网上下载的,它可能有自己的格式,所以,在使用这些数据之前,我们需要对其进行清洗。
这个问题实际上取决于你的数据集有多大,你的数据越多,单词也就越多。当然,像在 Google N-gram 语料库中,并非每一个词都是合法的英文单词,例如:格式标签、URL 等等。所以,我们很难回答在某种语言中有多少个唯一单词,因为人们总是会创造一些新的名字、新的缩写等等,所以单词数量实际上是与数据规模成正比的。
Token 数量(N) | Type 数量(|V|) | |
---|---|---|
交换台电话对话 | 240 万 | 2 万 |
莎士比亚 | 80 万 | 3 万 1 千 |
Google N-gram | 1 万亿 | 1300 万 |
“This movie is so great!!! U should definitely watch it in the theater! Best sci-fi
eva!”→
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。