搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
运维做开发
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
DW金融风控-task02数据分析_dw金融软件
2
PDPS软件:机器人搬运工艺应用虚拟仿真操作方法_pdps object flow operation
3
ros2安装教程
4
nginx server设置_nginx server set
5
【MySQL】事务一
6
http响应最大时长 nginx_Nginx中保持长连接的配置 - 运维记录
7
【Android 电量优化】电量优化 ( 充电状态获取 | 主动获取充电状态 | 广播接受者监听充电状态 | 被动获取充电状态 | 注册空广播接受者获取历史广播 )_broadcastreceiver 只有充电时才能接受
8
Kali Linux虚拟机_kail虚拟机
9
【金融数据接口】wind数据python使用教程_windpy
10
c++虚函数_a, b类都有虚函数, c继承a和b, c的大小, c有几个虚指针
当前位置:
article
> 正文
如何计算文本之间的相似度?余弦相似度详解!带例子,嘎嘎通俗易懂~_文本余弦相似度计算
作者:运维做开发 | 2024-07-04 18:43:06
赞
踩
文本余弦相似度计算
计算公式
cos ( θ ) = A ⃗ ⋅ B ⃗ ∣ ∣ A ⃗ ∣ ∣ × ∣ ∣ B ⃗ ∣ ∣ \cos (\theta) = \frac{\vec{A} \cdot \vec{B}}{||\vec{A}|| \times ||\vec{B}||}
cos
(
θ
)
=
∣∣
A
∣∣
×
∣∣
B
∣∣
A
⋅
B
其中
θ \theta
θ
是
余弦相似度
.
当
cos ( θ ) \cos (\theta)
cos
(
θ
)
越靠近1,则表示向量A和向量B在向量空间中的夹角越靠近0,意味着它们之间更相似。
夹角等于0,则表示这俩向量相等。
例子
假如要计算两段文本之间的相似性,总共可以分成以下五个步骤:
分词
作出语料库
计算词频
将原句转为词频向量
计算余弦相似性
A:今天天气真好,明天天气也一样。
B:今天天气不差,明天也一样。
分词
今天/天气/真好,明天/天气/也/一样。
今天/天气/不差,明天/也/一样。
语料库
今天,天气,真好,明天,也,一样,不差
计算词频
A:今天1,天气2,真好1,明天1,也1,一样1,不差0
B:今天1,天气1,真好0,明天1,也1,一样1,不差1
词频向量
A ⃗ = [ 1 2 1 1 1 1 0 ] \vec{A} =
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
1
2
1
1
1
1
0
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
[
1
2
1
1
1
1
0
]
A
=
1
2
1
1
1
1
0
B ⃗ = [ 1 1 0 1 1 1 1 ] \vec{B} =
⎡
⎣
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
1
1
0
1
1
1
1
⎤
⎦
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
[
1
1
0
1
1
1
1
]
B
=
1
1
0
1
1
1
1
余弦相似性计算
套入上述公式中可得
cos ( θ ) = ∑ i n ( A i × B i ) ∑ i n A i 2 × ∑ i n B i 2 = 1 × 1 + 2 × 1 + 1 × 0 + 1 × 1 + 1 × 1 + 1 × 1 + 0 × 1 1 2 + 2 2 + 1 2 + 1 2 + 1 2 + 1 2 + 0 2 × 1 2 + 1 2 + 0 2 + 1 2 + 1 2 + 1 2 + 1 2 = 6 3 × 6 ≈ 0.816 \cos(\theta) = \frac{\sum_i^n(A_i \times B_i)}{\sqrt{\sum_i^nA_i^2}\times \sqrt{\sum_i^nB_i^2}} = \frac{1\times1 + 2\times1 + 1\times0 + 1\times1 + 1\times1 + 1\times1 + 0\times1}{\sqrt{1^2 + 2^2 + 1^2 + 1^2 + 1^2 + 1^2 + 0^2} \times \sqrt{1^2 + 1^2 + 0^2 + 1^2 + 1^2 + 1^2 + 1^2}} = \frac{6}{3 \times \sqrt{6}} \approx 0.816
cos
(
θ
)
=
∑
i
n
A
i
2
×
∑
i
n
B
i
2
∑
i
n
(
A
i
×
B
i
)
=
1
2
+
2
2
+
1
2
+
1
2
+
1
2
+
1
2
+
0
2
×
1
2
+
1
2
+
0
2
+
1
2
+
1
2
+
1
2
+
1
2
1
×
1
+
2
×
1
+
1
×
0
+
1
×
1
+
1
×
1
+
1
×
1
+
0
×
1
=
3
×
6
6
≈
0.816
最终结果为0.816更靠近1,于是通过余弦相似度计算的结果表示这两个句子之间是颇为相似的。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/运维做开发/article/detail/787859
推荐阅读
article
mysql
数据
库
可分为
系统
数据
_
mysql
_
系统
数据
库
认识...
show databases;查看
mysql
自带
数据
库
有information_schema,
mysql
, perfor...
赞
踩
article
插入
排序
和
选择
排序
的
实现
_
实现
插入
排序
或
选择
排序
(
5
分)...
1.
插入
排序
这种方法思路是有一个空数组每次按大小将数据插入进去(放到数组最后,或者与数组中成员交换位置之后成员都向...
赞
踩
article
Mac用
VMware
虚拟机
安装
Windows
问题及
解决办法
_mac使用
vmware
安装
windows...
6.进入之后连不上网无法下一步,这时重启 ,在最开始启动的页面按shift+F10。5.进入启动界面后,出现循环重启的问...
赞
踩
article
ubuntu
14下
ssh
和
防火墙
设置
_
ubuntu
ssh
允许指定网段...
ssh
设置
安装sudo apt-get install open
ssh
-server启动
ssh
服务sudo servic...
赞
踩
article
科技
查新
报告
的
查新
流程
_技术
查新
流程
...
以小编的
查新
经历为例,在我们的
查新
工作中,曾遇到过一项最为耗时的任务,共计27个工作日才得以完成。最终,
查新
员需要撰写查...
赞
踩
article
Android
L
SystemUI
流程
简要
分析
_
systemui
home
键执行过程...
目录
Android
L
SystemUI
流程
简要
分析
1.
SystemUI
启动
流程
1.1概述1.2启动
流程
分析
1.3 ...
赞
踩
article
安全能力基座
Yakit
,
端口扫描
又
快又准
!_
yakit
帮助
文档
...
在设计中
,
为了快速进行匹配
,
我采取的指纹的数据结构为(*map*[string("特征")]string("名称")),...
赞
踩
article
想
兼职
?学
网络安全
,
钱赚到你手软
_
出
cnvd
赚钱吗...
疫情过后
,
现在的经济形式并不好
,
所以有很多人想在本职工作以外找一份
兼职
,
亦或者担心自己被裁员
,
想先学一门技术
,
从而提高自...
赞
踩
article
【文心
智能
体
】| 创建
一个
《
故事
达
人
学习
小
助手》入局_高情商
小
达
人
智能
体
...
随着ChatGPT问答大模型的火爆,国内的大厂们也随之发布了很多大模型,也随之诞生了一些衍生物——绘画、问答、生活类相关...
赞
踩
article
如何
解决
安卓
模拟器
无法
上网的
问题
_
android
模拟器
网络连接
问题
解决
...
通过以上步骤,我成功
解决
了Android
模拟器
无法
联网的
问题
。关键步骤包括查看当前DNS服务器,手动启动
模拟器
并指定DN...
赞
踩
article
rabbitmq
使用
mqtt
协议
_
mqtt
权限问题...
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、
rabbitmq
是什么?二、
mqtt
协议
...
赞
踩
article
jeecg
boot
的开源
框架
类似
_
jeecg
-
boot
:
JeecgBoot
基于
代码生成
器的低代...
Jeecg-Boot 快速
开发
平台当前最新版本
:
2
.
2
.0(发布日期
:
2
0
2
00506)后端技术架构基础
框架
:
Spri...
赞
踩
article
物联网应用开发--
Wi
-
Fi
通信(
ESP8266
模块
:
STA
、
AP
、
STA
+
AP
)_stm32esp...
Wi
-
Fi
定义
Wi
-
Fi
是无线保真的缩写,英文全称为
Wi
reless
Fi
delity。_
stm32esp8266ap
s...
赞
踩
article
通过
串口
实现
printf
和
scanf
函数
_
scanf
串口
的使用...
在做裸板开发时,常常需要
通过
输出或者
通过
串口
输入一些信息。在有操作系统机器上,我们很少关心输入和输出的问题。因为有很多现...
赞
踩
article
YARN
的
优化
与实践_
yarn
优化
...
YARN
(Yet Another Resource Negotiator) 是 Hadoop 集群
的
资源管理系统,是 ...
赞
踩
article
【
面试
答疑
】
贝壳
找房
25
实习
生集中
面试
即将开启!HR当天
答疑
_
贝壳
找房
实习
怎么
看
挂
没
挂
...
4-5月都是补录期,留给双非友们捡漏的时间不多了,可以试试小而美的国企、中小厂,上岸的机会还是蛮大的。事情是这样的,烧系...
赞
踩
article
服务器
安装
SSH
远程管理
和
sshd
_
config
文件找不到怎么解决_
etc
目录中没有
sshd
...
服务器
安装
SSH
远程管理
和
sshd
_
config
文件找不到怎么解决?_
etc
目录中没有
sshd
etc
目录中没有
sshd
...
赞
踩
article
构建基于
神经网络
的
智能
城市
:
城市
智能
化
的
未来_
智慧
城市
物联网构建
神经网络
...
作者:禅与计算机程序设计艺术 “
智能
城市
”是近几年热门
的
话题。很多新闻都在报道这一概念
的
崛起。由于传感器、雷达等...
赞
踩
article
pyautogui
屏幕
识图获取
坐标
点
_
python
根据
屏幕
中文
找到
坐标
...
先将要识别的图像截图保存下来记为1.png或者其他格式图片,然后放到pag.locateCenterOnScreen('...
赞
踩
article
使用
PyAutoGUI
识别
PNG
图像
并
自动
点击按钮_
python
pyautogui
如何判断
图像
...
在
自动
化测试、任务批处理等场景中,我们常常需要控制GUI程序的鼠标键盘操作。
PyAutoGUI
就是一个非常方便的Pyth...
赞
踩
相关标签
mysql数据库可分为系统数据
Python
算法导论
选择排序
插入排序
linux
运维
服务器
ssh
防火墙
ubuntu
科技查新
查新报告
查新流程
数据库
网络
网络安全
web安全
百度
AIGC
人工智能
android
java
后端