赞
踩
相似度度量(从字面上和语义上两方面来度量):计算个体间相似程度(得到一个分数,通过分数来度量相似度,范围[0,1])
-文本角度(TF-IDF、LCS):这件衣服真好看,这件衣服真难看
-语义角度(协同过滤):真好玩,真有趣
-文本+语义角度(word2vec)
先介绍文本相似中最常用最简单的方法:余弦相似度。
– 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小
– 余弦值接近1,夹角趋于0,表明两个向量越相似
简单的例子分析:
• 得到了文本相似度计算的处理流程是:
– 找出两篇文章的关键词;
– 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频
– 生成两篇文章各自的词频向量;
– 计算两个向量的余弦相似度,值越大就表示越相似。
TF-IDF(词频-逆文档频率)算法是一种统计方法&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。