当前位置:   article > 正文

NLP之文本相似度_nlp 两个文本的相似度 例子

nlp 两个文本的相似度 例子

相似度

相似度度量(从字面上和语义上两方面来度量):计算个体间相似程度(得到一个分数,通过分数来度量相似度,范围[0,1])

    -文本角度(TF-IDF、LCS):这件衣服真好看,这件衣服真难看
    -语义角度(协同过滤):真好玩,真有趣
    -文本+语义角度(word2vec

余弦相似度

先介绍文本相似中最常用最简单的方法:余弦相似度。

    – 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小

    – 余弦值接近1,夹角趋于0,表明两个向量越相似

简单的例子分析:

计算步骤

 • 得到了文本相似度计算的处理流程是:
– 找出两篇文章的关键词;
– 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频
– 生成两篇文章各自的词频向量;
– 计算两个向量的余弦相似度,值越大就表示越相似。

一、TFIDF

TF-IDF(词频-逆文档频率)算法是一种统计方法&

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号