PaliGemma – 谷歌的最新开源视觉语言模型（一）_谷歌paligemma

作者：weixin_40725706 | 2024-08-02 03:13:19

踩

谷歌paligemma

在这里插入图片描述

引言

PaliGemma 是谷歌推出的一款全新视觉语言模型。该模型能够处理图像和文本输入并生成文本输出。谷歌团队发布了三种类型的模型：预训练（PT）模型、混合（Mix）模型和微调（FT）模型，每种模型都有不同的分辨率和多种精度可供选择，方便用户使用。

所有模型都已在 Hugging Face Hub 模型库中发布，并附有模型卡和许可证，并与 transformers 集成。

什么是 PaliGemma？

PaliGemma 是一组视觉语言模型，其架构由 SigLIP-So400m 作为图像编码器和 Gemma-2B 作为文本解码器组成。SigLIP 是一个先进的模型，能够理解图像和文本。像 CLIP 一样，它由图像和文本编码器共同训练。类似于 PaLI-3，PaliGemma 模型预训练于图像-文本数据集上，然后可以轻松地在下游任务上进行微调，例如图像字幕生成或引用分割。Gemma 是一个仅用于文本生成的解码器模型。通过使用线性适配器将 SigLIP 的图像编码器与 Gemma 结合，使 PaliGemma 成为一个强大的视觉语言模型。

PaliGemma 发布了三种类型的模型：

PT 检查点：预训练模型，可以微调到下游任务。
Mix 检查点：对多任务进行微调的 PT 模型。适用于带有自由文本提示的通用推理，仅供研究用途。
FT 检查点：一组已经微调的模型，每个模型都专注于不同的学术基准。以多种分辨率提供，仅供研究用途。

这些模型提供三种不同的分辨率（224x224、448x448、896x896）和三种不同的精度（bfloat16、float16 和 float32）。每个模型库包含适用于给定分辨率和任务的检查点，并为每种可用精度提供三个修订版本。每个模型库的 main 分支包含 float32 检查点，而 bfloat16 和 float16 修订版本包含相应的精度版本。有适用于

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/916995