赞
踩
InternVL-1.5的三个重要改进:
可以参考几个经典的指标:
模型效果:
和以往模型架构的区别:
三阶段训练:
相关训练数据:
在9个benchmark上和以往sota模型的对比:
最近的多模态LLM进展:
视觉编码器的研究进展:
InternVL模型中的动态分辨率操作(Dynamic High-Resolution)是一种适应不同输入图像分辨率和宽高比的方法。这种方法通过将图像分割成固定大小的瓦片(tile),来增强模型处理详细视觉信息的能力,同时适应多样化的图像分辨率。具体来说,操作包括以下几个步骤:
动态宽高比匹配(Dynamic Aspect Ratio Matching):首先,模型会从预定义的宽高比集合中动态地匹配最优的宽高比,以保持图像的自然宽高比。例如,集合中可能包含1:1, 1:2, 2:1等宽高比,模型会根据输入图像的宽高比与这些预定义的宽高比进行匹配。
图像分割与缩略图(Image Division & Thumbnail):确定合适的宽高比后,图像会被调整到相应的分辨率,然后分割成448×448像素的瓦片。此外,为了捕获全局上下文,模型还会生成整个图像的缩略图,这个缩略图也被缩放至448×448像素。
像素洗牌(Pixel Shuffle)操作:这是一种用于减少视觉令牌数量的操作,通过这种操作,可以将图像表示的视觉令牌数量减少到原始数量的四分之一。这有助于提高模型处理高分辨率图像时的计算效率。
在InternVL 1.5模型中,使用像素洗牌操作是为了在保持图像表示的同时减少模型在处理时所需的视觉令牌数量。这样,即使在测试阶段图像瓦片的数量可以增加到40个(即4K分辨率),模型也能够高效地处理高分辨率输入,实现对高分辨率图像的零样本适应性。总的来说,动态分辨率操作使得InternVL 1.5能够灵活地处理不同尺寸和宽高比的图像,同时通过像素洗牌技术提高处理高分辨率图像时的计算效率。
其他方面:
模型架构:
两阶段训练:
翻译的prompt(可参考):
System:
You are a translator proficient inEnglishand{language}.Your task is to translate the following English text into{language}, focusing on a natural and fluent result that avoids “translationese.”Please consider these points:
1.Keep proper nouns, brands,and geographical names inEnglish.
2.Retain technical terms or jargon inEnglish, but feel free to explain in{language}if necessary.
3.Use{language} idiomatic expressions forEnglish idioms or proverbs to ensure cultural relevance.
4.Ensure quotes or direct speech sound natural in{language}, maintaining the original’s tone.
5.For acronyms, provide the full form in{language}with the English acronym in parentheses.
User:
Textfor translation:{text}
Assistant:
{translation results}
为了重点提高OCR效果,训练集中还加入了PaddleOCR。
和sota模型在16个benchmark的效果对比:
动态分辨率对性能的影响因任务而异。在某些基准测试中,高分辨率可能因增加计算成本而降低性能;而在OCR和文档理解等任务中,高分辨率则能显著提升性能。这强调了为不同任务选择合适分辨率的重要性,并表明动态分辨率是提升多模态模型性能的有效工具。这一结论与mPlug-DocOwl1.5和LLaVa-UHD的研究结果相一致。
InternVL 2.0的技术报告暂未开源。但模型结构方面和InternVL 1.5没有较大的改动。动态分辨率输入方面,训练中最多12个448×448的patch,测试中最多40个patch(4K分辨率)
模型架构:
相关模型信息如下,分为两阶段训练:
备注:大模型的训练少不了算力资源,博主和一些平台有合作~
高性价比4090算力租用,注册就送20元代金券,更有内容激励活动,点击。
GPU云服务器租用,P40、4090、V100S多种显卡可选,点击。
[1] Intern-vl 2技术博客:https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
[2] 通向高分辨率VLM (5): InternLM-XComposer-4KHD
[3] InternVL-1.5:开源社区最强的多模态大模型成长记录
[4] PixelShuffle面面观(附不同框架的pytorch等价实现)
[5] 多模态MLLM都是怎么实现的(11)–从SadTaler到快手LivePortait
[6] 2024 SOTA多模态大模型架构设计的最佳实践
[7] Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network
[8] PixelShuffle详解和cuda实现
[9] 超分任务中的转置卷积、pixelshuffle 和插值上采样
[10] 上海AI Lab:书生大模型 InternLM
[11] InternLM/InternVL系列多模态大模型核心技术解析
[12] 多模态排行榜:https://rank.opencompass.org.cn/leaderboard-multimodal/?m=REALTIME
[13] 【论文学习】InternVL多模态大语言模型
[14] 【论文学习】InternVL 1.5开源的多模态大语言模型
[15] InternLM2.5登顶HuggingFace大模型榜单12B以下榜首有什么亮点,能做哪些有趣应用
[16] AI论文精读之多模态基础模型InternVL.b_zhan
[17] 王文海 InternVL1.5. b_zhan
[18] 深度学习中的各类上采样算子(包括pixel shuffle等)
[19] 低分辨率feature maps的上采样方法:pixelshuffle
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。