赞
踩
源码地址:https://recognize-anything.github.io/
主要内容 RAM 算法:
RAM 由四部分组成:
实验效果:
故事逻辑:
两个主要的缺点:
为了解决上述问题,RAM 针对 标签系统、数据集、数据引擎和模型进行针对设计
受益于大规模的高质量的 image-tag-text 数据以及整合 tagging 以及 caption,RAM能够在有噪声的,无标注的数据上表现超过使用监督训练的模型。
模型包括
训练阶段,image-tag recognition decoder 用于预测 tags
推理阶段,image-tag recognition decoder 生成的 tags 用于指导 generation
这里的Recognition decoder 输入的每个query 在结果和图像特征的交叉注意力之后,会经过线性层 + sigmoid得到0~1的值,进行二分类,因为queries 是使用 文本的embedding,也就是说每个queries在初始化时就确定了语义。因此想实现开集,只需要在初始化时使用新类别的embedding进行初始化即可
![[Pasted image 20240508173313.png]]
略~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。