当前位置:   article > 正文

4.1 文本预处理_什么是文本预处理

什么是文本预处理

文本预处理

1.1 认识文本预处理


  • 学习目标:
    • 了解什么是文本预处理及其作用.
    • 了解文本预处理中包含的主要环节.

  • 文本预处理及其作用:
    • 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

  • 文本预处理中包含的主要环节:
    • 文本处理的基本方法
    • 文本张量表示方法
    • 文本语料的数据分析
    • 文本特征处理
    • 数据增强方法

  • 文本处理的基本方法:
    • 分词
    • 词性标注
    • 命名实体识别

  • 文本张量表示方法:
    • one-hot编码
    • Word2vec
    • Word Embedding

  • 文本语料的数据分析:
    • 标签数量分布
    • 句子长度分布
    • 词频统计与关键词词云

  • 文本特征处理:
    • 添加n-gram特征
    • 文本长度规范

  • 数据增强方法:
    • 回译数据增强法

  • 重要说明:
    • 在实际生产应用中, 我们最常使用的两种语言是中文和英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.

1.2 文本处理的基本方法


  • 学习目标:
    • 了解什么是分词, 词性标注, 命名实体识别及其它们的作用.
    • 掌握分词, 词性标注, 命名实体识别流行工具的使用方法.

  • 什么是分词:
    • 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.

  • 举个栗子:
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
 
==>
 
['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/356741
推荐阅读
相关标签
  

闽ICP备14008679号