赞
踩
题目: Improved Baselines with Visual Instruction Tuning
机构:威斯康星大学麦迪逊分校,微软
论文: https://arxiv.org/pdf/2310.03744.pdf
代码: https://llava-vl.github.io/
任务: 多模态大模型
特点: 预训练与指令微调只用非常少的数据(8张A100训练一天),就可以超过InstructBLIP和千问-VL。
方法: 研究数据、模型和图像输入分辨率的规模影响
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。