搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
在线问答5
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
aws rds监控慢sql_如何使用Web控制台和AWS CLI停止AWS RDS SQL Server
2
(附源码)spring boot物联网智能管理平台 毕业设计 211120_springboot 物联网相关技术有那些
3
python常用字符串拼接方法_python字符串连接输出字符串
4
多个comfyui之间如何共享模型,节省存储空间_comfyui共用模型
5
AI、AGI、AIGC与AIGC、NLP、LLM,ChatGPT区分
6
MySql中的CAST_mysql cast
7
yolo v5 onnxruntime与opencv cv2加载部署推理、实时摄像头检测_onnxruntime yolo 多路摄像头识别
8
git 的注册与常用的方式_agit网站注册
9
AIGC从入门到入坑01(初学者适用版)_aigc百问百答适合新手入门
10
我的软件测试面试经历,7轮高强度面试顺利入职_软件测试怎么面试高级别
当前位置:
article
> 正文
文本匹配:1、基础算法_文本匹配算法
作者:在线问答5 | 2024-07-23 15:37:52
赞
踩
文本匹配算法
文本匹配:主要是求两个句子之间的相似度。
无监督:
– 对短文本进行分词,然后加权求和每个分词的word2vec词向量,得到句向量。再对俩句向量进行距离度量,比如 欧式距离、consin距离、切比雪夫距离等,作为俩句子的相似度。
– 虽然无需标注,可以快速算出相似度,但准确率差。
有监督:
–
siamese架构
:是将俩文本输入到相同的编码器中(CNN/RNN),使得两个句子映射到相同的空间中;然后得到俩句子向量 进行度量,进而获得相似度。
代表是 孪生网路 (图)。 优点是共享参数 模型小,容易训练,句向量具有一定的语义信息,但俩文本之间没有信息交互。
–
“交互聚合”架构
:基于第一个架构,得到句子向量后,通过 注意力机制 将两个句向量进行信息交互,最终聚合成一个向量,然后获得相似度。
代表是 ESIM(增强版LSTM的自然语言推理NLI)、
BiMPM(双向多角度匹配模型)
// 不同时间步之间的信息交互 效果是还不错,可是太慢了!!
–
“预训练”架构
:将两个文本输入到预训练语言模型中,得到信息交互后的向量,然后获得相似度。
比如bert。能够获得短文本之间更隐蔽的交互特征,但就是比较慢。
无监督 + 有监督:
– 权衡效果和效率,折中方案。 比如可以 将孪生网络中的编码器换成bert,离线缓存好标准问的句向量。 用户query来时只需计算其句向量,先召回粗排得到 候选标准问,再输入到模型中计算相似度。
比如
sentence bert
。 具体采用哪种方案,根据项目对效果和效率的要求 选择吧。
参考:
刘聪:
短文本相似度算法研究
夕小瑶:
文本匹配相关方向打卡点总结(数据,场景,论文,开源工具)
王乐:
Deep text matching–盘点11个文本匹配模型
同义变换在百度搜索广告中的应用
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/在线问答5/article/detail/870511
推荐阅读
article
摒弃
传统
分页:
移动
端
开发
中的
无限
滚动
实现
_
移动
端
实现
滚动
翻页...
摒弃
传统
分页方式,采用
无限
滚动
技术在
移动
端
开发
中具有显著的优势。通过优化前
端
和后
端
的
实现
,能够显著提升数据加载性能,改善...
赞
踩
article
Stable
Diffusion
图像
的脸部
细节
控制——
采样器
全解析_
restart
采样器
...
在当今这个视觉至上的时代,无论是艺术创作、广告宣传还是社交媒体分享,高质量的
图像
都是吸引观众、传递信息的关键。通过上述介...
赞
踩
article
考研
复试-专业问答_
考研
计算机
可以
用
spring
的
项目
做复试吗...
在深度学习
的
课程设计中,我先自己
的
利
用
搭建
的
CNN模型进行测试效果不好,主要是由于数据集
的
问题导致
的
过拟合。后面 转向利...
赞
踩
article
git
添加
忽略
文件
未生效原因_
git
忽略
文件
不起作用
...
文件
来
忽略
某些
文件
或
文件
夹,但发现这些规则没有生效时,可能有几个原因。这可以帮助你确定哪些
文件
被跟踪,哪些
文件
被
忽略
,以...
赞
踩
article
[学习笔记]
Git
教程-整理
自
廖
雪峰
的
官方网站
-2024年重新编辑版
_
廖
雪峰
git
...
Git
教程-整理
自
廖
雪峰
的
官方网站
_
廖
雪峰
git
廖
雪峰
git
...
赞
踩
article
子
查询
(
嵌套
查询
)——
MySQL
_
mysql
子
查询
执行顺序...
文章目录
子
查询
(
嵌套
查询
)1. 标准
子
查询
2. 列
子
查询
(
多行
子
查询
)3. 行
子
查询
select后面的
子
查询
from后面...
赞
踩
article
解决
Git
添加
.
gitignore
文件
后不
生效
的问题_项目
添加
..
gitignore
不
生效
...
解决
Git
添加
.
gitignore
文件
后不
生效
的问题_项目
添加
..
gitignore
不
生效
项目
添加
..
gitignor...
赞
踩
article
在
京东
做
外
包
的
那些日子...._
京东
的
外
包
值得
去
吗...
不知不觉已经
在
京东
做了两年
外
包
,最近收到不少朋友私信,说马上面临就业,
在
找工作
的
过程中,有不少软件测试
的
外
包
公司给我打...
赞
踩
article
Ubuntu
问题(1):正在
解析
主机
fishros
.
com
(
fishros
.
com
)
...
失败...
正在
解析
主机
fishros
.
com
(
fishros
.
com
)
...
失败:
域名
解析
暂时失败。
wget
:
无法
解析
主机
...
赞
踩
article
学
大
数据
开发
要掌握
的
基础知识
有哪些?_
大
数据
开发
学习
...
数据
存储和管理:了解
数据
存储和管理
的
方法和技术,包括关系型
数据
库、分布式文件系统(如HDFS)、列式
数据
库等,能够选择合...
赞
踩
article
Langflow
系列教程之 09 快速搭建AI
文档
质量检查
,从
本地
内存加载
的
文档
构建
问答聊天
机器人
...
Langflow
是一种用于
构建
多代理和 RAG 应用程序
的
全新可视化框架。它是开源
的
、由 Python 提供支持
的
、完...
赞
踩
article
centos安装
postg
is
_
required
extension
"
fuzzystrmatch
"...
前期准备:安装postgresql9.1以上的版本,因为pg9.1以上版本才支持
postg
is
扩展安装gdal-1.11...
赞
踩
article
读书笔记
之大
数据
基础...
1、
数据
:对客观事物的逻辑归纳,用符号、字母等方式对客观事物进行直观描述,是进行各种统计、计算、科研或技术设计的数值,也...
赞
踩
article
如何
在
WooCommerce
中创建
智能
优惠券
...
Several of our readers have asked us how to create smart cou...
赞
踩
article
请勿用于非法用途
!
切除
Qwen
安全
审查记录
!
给
LLM
动手术
!
生成
任何想要
的
内容
!
适用
所有
大
模型
!
_q...
hi~众所周知
!
训练+微调大
模型
,做
的
,都是加法
!
为了确保大
模型
生成
的
文本,
安全
!
绝大部分
的
LLM
开发商,都会给大
模型
上...
赞
踩
article
kaggle
比赛
经历对于找算法类
的
工作
有
帮助吗?310+
方案
汇总!...
Kaggle是全球顶级
的
数据科学竞赛平台,在数据科学领域中享
有
盛名。上百万
的
的
数据科学家及相关从业者基于企业和研究者在K...
赞
踩
article
推荐开源
项目
:
H5HandLock
-
手势
解锁
的
HTML5
实现
...
推荐开源
项目
:
H5HandLock
-
手势
解锁
的
HTML5
实现
项目
地址:https://gitcode.com/son...
赞
踩
article
苹果电脑
虚拟机
运行
Win
dows
Mac
环境
安装
Win
PD19
虚拟机
parallels desk...
在
虚拟机
中,以 Parallels Desktop for
Mac
(PD
虚拟机
)最为代表性,借助 Parallels...
赞
踩
article
JavaScript
高级
程序设计
第
4版
--
表单
脚本_
javascript
第
四版
表单
脚本...
JavaScript
高级
程序设计
第
4版
--
表单
脚本_
javascript
第
四版
表单
脚本
javascript
第
四版
表单
...
赞
踩
article
RabbitMQ
是
什么
?...
RabbitMQ
是一个开源的消息代理软件(Message Broker),它实现了高级消息队列协议(AMQP,Advan...
赞
踩
相关标签
java
stable diffusion
人工智能
考研
面试
git
MySQL
数据库
嵌套查询
子查询
单元测试
软件测试
压力测试
ubuntu
机器人
大数据
postgis
python
编程语言
安全
游戏
chatgpt
设计模式
深度学习