当前位置:   article > 正文

使用词向量时如何对数据进行预处理_词向量需要如何预处理

词向量需要如何预处理
  • 在使用词向量时,不要使用常用的预处理过程如停用词移除、词干提取等
  • 尽可能地使单词更加得靠近词向量
  • 在某些场景下,如情感分类,标点符号、大小写也可能会包含有用的信息
  • 对于特定的任务,如情感分类来说,一些特殊字符如表情符号往往含有重要的信息,因此不要随便删除
  • 在使用词向量时,要遵循训练词向量时所进行的预处理操作,如谷歌预处理词向量时对数字用"##"替换,训练glove twitter embeddings时进行了如下替换text = re.sub("<3", '<HEART>', text) 。因此在使用这两个词向量时,我们也要进行相应的预处理
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/725337
推荐阅读
相关标签
  

闽ICP备14008679号