赞
踩
keywords: (自己总结)
同方向论文:CoVR: Learning Composed Video Retrieval from Web Video Captions
解决组合视频检索(Composed Video Retrieval, CoVR)中的挑战,即在大型数据库中实现更精细的视频搜索。现有工作主要依赖视觉查询与修改文本的结合来区分相关视频,但这种策略难以完全保留检索目标视频中的丰富查询特定上下文,并且仅使用视觉嵌入来表示目标视频。
文章提出了一个新的CoVR框架,利用详细的语言描述来明确编码查询特定的上下文信息,并学习视觉、文本以及视觉-文本的区分性嵌入,以更好地对齐并准确检索匹配的目标视频。该框架可以灵活地用于组合视频(CoVR)和图像(CoIR)检索任务。实验表明,该方法在三个数据集上都取得了最先进的性能,对于CoVR和零样本CoIR任务,召回率@K=1得分提高了约7%。
例如,如果查询视频是一片红色的液体,并且修改文本是“变成蓝色”,模型会利用详细的描述(如“红色液体是用于不立即可见的打印机”)来帮助理解查询视频的上下文,并检索出与输入视频在视觉上相似但液体颜色变为蓝色的目标视频。
实验结果表明,该方法在WebVid-CoVR数据集上与最近的CoVR-BLIP方法相比,在召回率@K=1得分上取得了约7%的显著提升。在CIRR测试集上,该方法在零样本设置中实现了40.12的召回率@K=1得分。此外,通过定性比较,展示了该方法在检索目标视频时能够更好地保持与查询视频的语义对齐。
这篇论文针对组合视频检索任务中的视频检索挑战,提出了一种新颖的框架,通过利用详细的语言描述来编码查询特定的上下文信息,并学习视觉、文本和视觉-文本的区分性嵌入,以提高检索的准确性。该框架在多个数据集上取得了最先进的性能,特别是在零样本图像检索任务中表现出色。尽管如此,模型仍需在计算效率、泛化能力和鲁棒性等方面进行进一步的改进和研究。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。