文献阅读-VQAR-基于计算机视觉和自然语言处理的信息检索技术综述

作者：小丑西瓜9 | 2024-04-04 22:41:52

踩

vqar

VQAR: Review on Information Retrieval Techniques based on Computer Vision and Natural Language Processing

标题：VQAR-基于计算机视觉和自然语言处理的信息检索技术综述

Authors：Shivangi ModiDhatri Pandya

Journal：2019 3rd International Conference on Computing Methodologies and Communication (ICCMC) (2019)

Date：2019-3

DOI：10.1109/iccmc.2019.8819803

在这里插入图片描述

Abstract：最近，计算机视觉和自然语言处理范式在各自领域包含了巨大的研究进展。尽管这两个领域都取得了进展，但对于机器来说，提取图像语义并将提取的信息与所需用户进行交流仍然是一项具有挑战性的任务。这些问题将通过连接计算机视觉和自然语言处理范式的视觉问答（VQA）系统来解决。在 VQA 中，系统会收到与该图像相关的图像和文本问题。系统将通过处理图像和文本特征来生成答案。 VQA 生成的答案是一个单词、短语或句子。各种数据集可用于训练和评估 VQA 系统，其中包含真实或抽象图像以及与图像中可用语义相关的问答对。 VQA 被用于许多领域，例如盲人和视障用户、机器人、艺术画廊和更多领域。本文讨论了 VQA 技术、VQA 数据集，并强调了这些技术的参数评估以及 VQA 系统中的一般问题。

Keywords： 视觉问答、计算机视觉、自然语言处理、注意力模型、联合嵌入、组合模型、外部知识库机制。

1. INTRODUCTION

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/361626