搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Li_阴宅
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
移动端开发点击按钮后出现闪烁的结局方法_vue按钮判断显示会 闪一下
2
【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集_python 西瓜数据1信息熵计算
3
大数据基础知识总结_大数据技术基础知识
4
程序员年龄变大后的职业出路是什么?_程序员40-50岁的出路
5
推荐开源项目:React useWebSocket
6
使用docker安装部署elasticsearch,并持久化到容器卷_docker-compose安装es并实现es日志持久化
7
Linux上安装JDK,Java起飞,开启编程之旅
8
SQL学习1---表的创建和修改,数据的增删改_sql学习表生成
9
Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAMIC or R
10
flask搭建在线音乐网系统_flask音乐推荐系统
当前位置:
article
> 正文
如何计算文本之间的相似度?余弦相似度详解!带例子,嘎嘎通俗易懂~_文本相似度余弦相似度案例
作者:Li_阴宅 | 2024-07-01 23:42:52
赞
踩
文本相似度余弦相似度案例
计算公式
cos ( θ ) = A ⃗ ⋅ B ⃗ ∣ ∣ A ⃗ ∣ ∣ × ∣ ∣ B ⃗ ∣ ∣ \cos (\theta) = \frac{\vec{A} \cdot \vec{B}}{||\vec{A}|| \times ||\vec{B}||}
cos
(
θ
)
=
∣∣
A
∣∣
×
∣∣
B
∣∣
A
⋅
B
其中
θ \theta
θ
是
余弦相似度
.
当
cos ( θ ) \cos (\theta)
cos
(
θ
)
越靠近1,则表示向量A和向量B在向量空间中的夹角越靠近0,意味着它们之间更相似。
夹角等于0,则表示这俩向量相等。
例子
假如要计算两段文本之间的相似性,总共可以分成以下五个步骤:
分词
作出语料库
计算词频
将原句转为词频向量
计算余弦相似性
A:今天天气真好,明天天气也一样。
B:今天天气不差,明天也一样。
分词
今天/天气/真好,明天/天气/也/一样。
今天/天气/不差,明天/也/一样。
语料库
今天,天气,真好,明天,也,一样,不差
计算词频
A:今天1,天气2,真好1,明天1,也1,一样1,不差0
B:今天1,天气1,真好0,明天1,也1,一样1,不差1
词频向量
A ⃗ = [ 1 2 1 1 1 1 0 ] \vec{A} =
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
1
2
1
1
1
1
0
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
[
1
2
1
1
1
1
0
]
A
=
1
2
1
1
1
1
0
B ⃗ = [ 1 1 0 1 1 1 1 ] \vec{B} =
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
1
1
0
1
1
1
1
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
[
1
1
0
1
1
1
1
]
B
=
1
1
0
1
1
1
1
余弦相似性计算
套入上述公式中可得
cos ( θ ) = ∑ i n ( A i × B i ) ∑ i n A i 2 × ∑ i n B i 2 = 1 × 1 + 2 × 1 + 1 × 0 + 1 × 1 + 1 × 1 + 1 × 1 + 0 × 1 1 2 + 2 2 + 1 2 + 1 2 + 1 2 + 1 2 + 0 2 × 1 2 + 1 2 + 0 2 + 1 2 + 1 2 + 1 2 + 1 2 = 6 3 × 6 ≈ 0.816 \cos(\theta) = \frac{\sum_i^n(A_i \times B_i)}{\sqrt{\sum_i^nA_i^2}\times \sqrt{\sum_i^nB_i^2}} = \frac{1\times1 + 2\times1 + 1\times0 + 1\times1 + 1\times1 + 1\times1 + 0\times1}{\sqrt{1^2 + 2^2 + 1^2 + 1^2 + 1^2 + 1^2 + 0^2} \times \sqrt{1^2 + 1^2 + 0^2 + 1^2 + 1^2 + 1^2 + 1^2}} = \frac{6}{3 \times \sqrt{6}} \approx 0.816
cos
(
θ
)
=
∑
i
n
A
i
2
×
∑
i
n
B
i
2
∑
i
n
(
A
i
×
B
i
)
=
1
2
+
2
2
+
1
2
+
1
2
+
1
2
+
1
2
+
0
2
×
1
2
+
1
2
+
0
2
+
1
2
+
1
2
+
1
2
+
1
2
1
×
1
+
2
×
1
+
1
×
0
+
1
×
1
+
1
×
1
+
1
×
1
+
0
×
1
=
3
×
6
6
≈
0.816
最终结果为0.816更靠近1,于是通过余弦相似度计算的结果表示这两个句子之间是颇为相似的。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Li_阴宅/article/detail/778029
推荐阅读
article
C++
——
STL
标准模板库——
容器
详解——
set
_
c++
set
容器
...
set
容器
和multi
set
容器
详解。第一次接触对组的概念。使用中要小心迭代过程中插入或者删除元素迭代器迭代器失效的可能...
赞
踩
article
年度巨作!《
2024
全球
量子
计算
产业
发展
展望》发布...
2024
年
量子
计算
产业
发展
报告详细回顾了过去一年的进展,重点关注技术多元化、商业化应用、量超融合、云平台成熟以及
全球
竞争...
赞
踩
article
Eureka
上集成
Spring
Cloud
微服务网关
gateway
_
spring
cloud
g...
API 网关是一个搭建在客户端和微服务之间的服务,我们可以在 API 网关中处理一些非业务功能的逻辑,例如权限验证、监控...
赞
踩
article
实战
案例
:如何用
ChatGPT
生成
适合不同
领域
的
高质量
文章
...
随着人工智能技术的飞速发展,
生成
高质量
文章
已经不再是难题。特别是OpenAI开发的
ChatGPT
,更是为写作工作带来了极...
赞
踩
article
深度
学习
在
自然语言
处理
中
的
革新
应用
与未来趋势...
自动摘要生成是
深度
学习
在NLP中
的
另一个
应用
。模型能够理解文本
的
主要观点并生成简洁
的
摘要。
深度
学习
在
自然语言
处理
中
的
革新...
赞
踩
article
在
Python
中
连接
字符串
的
7 种
方法
_
python
连接
字符串
...
我们学习
Python
必然是为了找到高薪
的
工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新
的
面试资料,并且有...
赞
踩
article
【题解】
链表
的
奇偶
重排
_
链表
的
奇偶
重排
python
...
链表
的
奇偶
重排
_
链表
的
奇偶
重排
python
链表
的
奇偶
重排
python
...
赞
踩
article
【
人工智能
AI】
MaaS
:
模型
即
服务
的
未来已来
_
mass
服务
...
模型
即
服务
是一种云计算模式,它提供了一种将作为
服务
(
MaaS
服务
)
的
方式,允许用户在不需要拥有自己
的
硬件设备或专业技能...
赞
踩
article
C++
中
set
使用及
介绍
(超详细+入门+代码解析)_
c++
set
...
C+帮助文档:链接:Set的文档
介绍
set
是按照一定次序存储元素的容器在
set
中
,元素的value也标识它(value就...
赞
踩
article
windows
10
企业版
缺少
信息服务器,
Windows
10
更新,提示
缺少
重要的
安全
和
质量
修复
怎么办...
操作步骤:1、
Windows
设置 - 升级和
安全
,
Windows
升级显示:你应用的并不是最新版,你的机器设备中
缺少
关...
赞
踩
article
解决
fatal
:
detected
dubious
ownership
in
repository
_...
大概翻译过来就是。_
fatal
detected
du
fatal
detected
du ...
赞
踩
article
性
能
测试
能
不
能
做好
,
要
看你
有没有
性
能
测试
思维...
01用户数信息1、调查系统当前和未来使用的用户数系统用户数 = 本系统目前注册的用户数
,
注册用户数并不代表他会每天并且无...
赞
踩
article
iptables
查看
客户端
流量
情况
_
如何抓取
iptables
中
的
流量
...
参考: http://yzs.me/2212.html作为路由时
的
流量
统计: 如果服务器是做路由
的
,那么使用上面
的
命令把...
赞
踩
article
WEB
前端
三大
主流
框架
_
前端
框架
三大
框架
...
React以其强大的组件化系统和灵活的数据流管理著称,Vue则以其易用性和直观的模板语法吸引了大量开发者,而Angula...
赞
踩
article
使用
craco
配置
基于
create
-
react
-
app
的开发环境_
craco
官网...
本文
使用
create
-
react
-
app
创建 React 项目,
使用
antd 作为 UI 框架,
使用
craco
...
赞
踩
article
ROS2开发
机器人
移动
...
创建功能包和节点这里我们设计两个节点example_interfaces_robot_01,
机器人
节点,对外提供控制机器...
赞
踩
article
2024年金九银十收获
阿里
腾讯
实习
offer
,
学习
、
面试
经验分享
,
2024年互联网大厂
Android
...
文章所有资料全部已经打包整理好
,
另外小编手头上整理了大量
Android
架构师全套
学习
资料
,
Android
核心高级技术PD...
赞
踩
article
MySql
--
check
约束_
mysql
check
约束...
MySql
--
check
约束文章来自于:
MySql
--
check
约束 - 喵喵扑 - 博客园 (cnblog...
赞
踩
article
485
转4-
20mA
信号
转换0-
10v5v
电压
电流
采集模块_
485
如何转换成
电流
信号
...
● RS-
485
/232接口,隔离转换成12路标准模拟
信号
输出● 可选型输出4-
20mA
或0-10V控制其他设备● 模拟...
赞
踩
article
在
SwiftUI
macOS
应用程序
中显示和隐藏
边栏
_
macos
开发实现侧
边栏
...
在
SwiftUI
中,可以轻松地显示和隐藏
边栏
,以提供更好的用户体验。首先,我们需要创建一个基本的
macOS
应用程序
,并设...
赞
踩
相关标签
c++
开发语言
量子计算
云原生
微服务
Eureka
gateway
网关
架构
chatgpt
人工智能
ai
agi
ai自动写文章
深度学习
自然语言处理
python
linux
数据库
链表
数据结构
机器学习
MaaS
模型即服务
windows10企业版缺少信息服务器