当前位置:   article > 正文

自然语言处理之文本预处理

文本预处理

1. 引言

现在我们将学习文本预处理。通常情况下,语言数据是带有噪声的,是不干净的,你可能是从网上下载的,它可能有自己的格式,所以,在使用这些数据之前,我们需要对其进行清洗。

1.1 定义

  • 语料库(Corpus):一个 文档(documents) 的 集合(collection)
    • 例如:维基百科中全部的英文文章
  • 文档(Document):一个或者多个 句子(sentence)
    • 通常,这些句子是经过理解性组织过的,可能是谈论某件事情,而不仅仅是一些随机的句子。
    • 例如:维基百科的一篇文章
  • 句子(Sentence)
    • “The student is enrolled at the University of Melbourne.”
  • 单词(Words):带有意义或者功能的 字符序列(sequence of characters)
  • 单词 token:数据中你所见的每个单词实例。
    • 例如:上面的例句中有 9 个 tokens(单词 “the” 算了 2 次)
  • 单词 type:不同于 token,它是数据中的那些唯一的单词,即不包含重复单词
    • 例如:上面的例句中有 8 个 type(单词 “the” 只算 1 次)
  • 词典(Lexicon 或者 Dictionary)单词 types 的一个集合

1.2 有多少个唯一单词?

这个问题实际上取决于你的数据集有多大,你的数据越多,单词也就越多。当然,像在 Google N-gram 语料库中,并非每一个词都是合法的英文单词,例如:格式标签、URL 等等。所以,我们很难回答在某种语言中有多少个唯一单词,因为人们总是会创造一些新的名字、新的缩写等等,所以单词数量实际上是与数据规模成正比的。

Token 数量(N)Type 数量(|V|)
交换台电话对话240 万2 万
莎士比亚80 万3 万 1 千
Google N-gram1 万亿1300 万

1.3 为什么要进行预处理?

  • 对于大多数 NLP 应用,我们的输入都是文档:
    • “This movie is so great!!! U should definitely watch it in the theater! Best sci-fi
       eva!”→ 

      声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/350007
推荐阅读
相关标签