当前位置:   article > 正文

词向量与句向量概述_词向量 句向量

词向量 句向量

比较常见的词向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec

词向量一般看作是文档特征,不同词向量有不同用法,主要有四类词向量:1.hash算法及衍生;2.BOW算法延伸;3.word2vec延伸;4.LDA主题延伸

    一个词一列向量-----> hash算法--->word2vec(考虑上下文语境)

    一个词一个向量----->BOW算法-->LDA(考虑语言多义)

1.基本概念

一词一列向量hash将词打散成(01010101110)的数值。word2vec在打散的同时定义向量,还考虑了单词上下文语义,doc2vec额外考虑上下语句顺序(单词在段落中顺序),用在段落中比较好

一个词一个值(bow算法+词权重,LDA主题-词语矩阵)两者递进,LDA运算耗时,业界用的较少

2.词向量到句向量

1.如果是一词一列向量,一般用简单相加(相加被证明是最科学)求得句向量

2.如果一词一个向量,就用词权重组合成句向量方式

3.谷歌句向量sen2vec直接将句子变成列向量

句向量:对于短语或句子,将组成单词对应的所有词向量加起来,作为短语向量、句向量

3.词向量的额外效果

消除歧义:LDA主题模型-词句向量

结合上下文语境:word2vec

文档与文档间关系:bow+tfidf

一般来说,hash值效果稍微差一点,其他三类均不错

4.词向量应用方向

文本分类:BOW+TFIDF(TFIDF能较好区分不同文档),word2vec,LDA主题-词语向量(潜在语义发现)

文本相似性:word2vec(结合上下文语境,短文本效果良好)、LDA主题-词语向量(文档语义挖掘)

文本主题建模:LDA模型

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/819435
推荐阅读
相关标签
  

闽ICP备14008679号