赞
踩
本篇博文梳理一篇knowledge-based方向的文章,结合了多模态知识的多模态知识图谱。来自复旦大学,先上路径:
知识图谱到多模态知识图谱
首先知识图谱是一个以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络。这种带有知识的结构也被广泛应用,但是,现有知识图谱都以纯文本的形式出现,却没有真实世界的连接。比如:
因此多模态知识图谱(Multi-Modal Knowledge Graph,MMKG)被逐渐瞩目,这篇文章主要关注两个话题:
多模态知识图谱的好处:
多模态知识图谱构建
MMKG构建需要将普通KG中的符号知识(包括实体、概念、关系等)与图像关联起来。MMKG按类型可分为两种,A-MMKG和N-MMKG。A即 attribute,将多模态数据如图像作为实体或概念的特定属性值,而N即entities,将多模态数据直接作为KGs中的实体。下图是两种类型的主要predicate,如在A-MMKG中hasImage,N-MMKG的sameAs。
在构建上,上面也提到过的,主要有两种方式(1) from images to symbols,即在图像上标注KG中的符号; (2) from symbols to images,即在图像上标注KG中的对应符号。下图a是第一种靠 labeling images构建的方法,图b是第二种 symbol grounding的构建方式的流行数据集们。
作者对这两块儿会遇到的挑战和未来的优化机会做了详细的探讨,有兴趣可以拜读原文。与此同时,如何应用好这些已经被制作完善的MMKG也很重要。
多模态知识图谱应用
应用任务主要分为in-KG和out-of-KG。In-MMKG应用是指在MMKG本身内进行的任务,如:链接预测Link Prediction,三元组分类Triple Classification,实体链接Entity Classification,实体对齐Entity Alignment等等。这些和KG中已经探讨很多的任务,本篇博文就不再赘述太多。
Out-of-MMKG则是更为广泛一些的下游任务,如多模态实体识别与链接Multi-modal Entity Recognition and Linking,视觉问答 Visual Question Answering,图像文本匹配Image-Text Matching,多模态生成任务Multi-modal Generation Tasks,多模态推荐系统Multi-modal Recommender System。
多模态知识图谱开放问题
作者主要提了以下未来的开放性问题:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。