多模态大模型升级：LLaVA→LLaVA-1.5，MiniGPT4→MiniGPT5_llava和minigpt4

作者：正经夜光杯 | 2024-08-04 15:21:18

踩

llava和minigpt4

Overview

LLaVA-1.5
- 总览
- 摘要
- 1.引言
- 2.背景
- 3.LLaVA的改进
- 4.讨论
- 附录

LLaVA-1.5

总览

题目: Improved Baselines with Visual Instruction Tuning
机构：威斯康星大学麦迪逊分校，微软
论文: https://arxiv.org/pdf/2310.03744.pdf
代码: https://llava-vl.github.io/
任务: 多模态大模型
特点: 预训练与指令微调只用非常少的数据（8张A100训练一天），就可以超过InstructBLIP和千问-VL。

LLaVA-1.5（预训练：558K，指令微调：665K，分辨率336，LLM：Vicuna 13B，projector：两层全连接）
InstructBLIP（预训练：129M，指令微调：1.2M，分辨率：224，LLM：Vicuna 13B，projecter：Q-former）
千问-VL（预训练：1.4B，指令微调：50M，分辨率：448，LLM：千问-7B，projecter：VL-Adapter）等模型

方法: 研究数据、模型和图像输入分辨率的规模影响

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/928402