自然语言处理之文本预处理

作者：不正经 | 2024-04-01 20:21:10

踩

文本预处理

1. 引言

现在我们将学习文本预处理。通常情况下，语言数据是带有噪声的，是不干净的，你可能是从网上下载的，它可能有自己的格式，所以，在使用这些数据之前，我们需要对其进行清洗。

1.1 定义

语料库（Corpus）：一个 文档（documents） 的 集合（collection）
- 例如：维基百科中全部的英文文章
文档（Document）：一个或者多个 句子（sentence）
- 通常，这些句子是经过理解性组织过的，可能是谈论某件事情，而不仅仅是一些随机的句子。
- 例如：维基百科的一篇文章
句子（Sentence）
- “The student is enrolled at the University of Melbourne.”
单词（Words）：带有意义或者功能的 字符序列（sequence of characters）
单词 token：数据中你所见的每个单词实例。
- 例如：上面的例句中有 9 个 tokens（单词 “the” 算了 2 次）
单词 type：不同于 token，它是数据中的那些唯一的单词，即不包含重复单词
- 例如：上面的例句中有 8 个 type（单词 “the” 只算 1 次）
词典（Lexicon 或者 Dictionary）：单词 types 的一个集合

1.2 有多少个唯一单词？

这个问题实际上取决于你的数据集有多大，你的数据越多，单词也就越多。当然，像在 Google N-gram 语料库中，并非每一个词都是合法的英文单词，例如：格式标签、URL 等等。所以，我们很难回答在某种语言中有多少个唯一单词，因为人们总是会创造一些新的名字、新的缩写等等，所以单词数量实际上是与数据规模成正比的。

	Token 数量（N）	Type 数量（\|V\|）
交换台电话对话	240 万	2 万
莎士比亚	80 万	3 万 1 千
Google N-gram	1 万亿	1300 万

1.3 为什么要进行预处理？

对于大多数 NLP 应用，我们的输入都是文档：
- “This movie is so great!!! U should definitely watch it in the theater! Best sci-fi
  eva!”→
  声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/350007