关于Mamba和Mamba-2经典论文的学习笔记总结，以及Mamba和Transformer的对比总结，欢迎交流_mamba2论文

作者：IT小白 | 2024-08-01 02:41:19

踩

mamba2论文

最近阅读论文的时候，发现很多基于Mamba改进的CV方向论文，好奇的去了解了一下这个Mamba的起源，以及Mamba-2的提出，简单的对Mamba和Transformer的异同进行了归纳，学到了一些东西，我将从第一部分Mamba的提出背景和结构原理，第二部分Mamba与Transformer的异同，第三部分mamba-2的提出背景和结构原理，第四部分我的个人学习心得，这四个方面进行总结：

1.第一部分 Mamba的提出背景与结构原理

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

论文链接： 2312.00752 (arxiv.org)

在这篇论文中，系统的讨论了Mamba的概念，我们不妨先关注这篇文章的研究背景：

1.1 研究背景和摘要：

研究背景（大致意思）当前深度学习中的大型基础模型（Foundation Models, FMs）主要基于Transformer架构及其核心的注意力（Attention）模块。尽管存在许多旨在解决Transformer在长序列上的计算效率问题的子二次时间架构，但它们在重要模态（如语言）上的表现并未超过注意力机制。

摘要 Abstract： Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address

Transformers’ computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the

sequence length dimension depending on the current token. Second, even though this change prevents the use of efficient convolutions, we design a hardware-aware parallel algorithm in recurrent mode. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba ). Mamba enjoys fast inference (5× higher throughput than Transformers) and linear scaling in sequence length, and its performance improves on real data up to million-length sequences. As a general sequence model backbone, Mamba achieves state-of-the-art performance across several modalities such as language, audio, and genomics. On language modeling, our Mamba-3B model outperforms Transformers of the same size and matches Transformers twice its size, both in pretraining and downstream

evaluation.

翻译过来的意思是：基础模型目前为深度学习中大多数令人兴奋的应用提供动力，它们几乎都基于Transformer 架构及其核心注意力模块。许多亚二次方程时间架构，如线性注意、门控卷积和递归模型，以及结构化状态空间模型（SSM）、门控卷积和递归模型，以及结构化状态空间模型（SSM）等许多亚四元时间架构都是为了解决变压器在长序列上的计算效率低下问题，但它们在语言等重要模态上的表现不如注意力好。但它们在语言等重要模态上的表现并不尽如人意。我们发现，这些模型的一个关键弱点是无法进行基于内容的推理，并做出了几项改进。首先，只需让 SSM 参数成为输入的函数，就能解决它们在离散模态下的弱点。首先，只需让 SSM 参数成为输入的函数，就能解决它们在离散模态方面的弱点，使模型能根据当前标记的长度维度，有选择地传播或遗忘信息。序列长度维度传播或遗忘信息。其次，尽管这种变化妨碍了使用高效的卷积，我们还是设计了一种硬件感知的并行递归模式算法。我们将这些选择性 SSM 集成到一个简化的端到端神经网络中。我们将这些选择性 SSM 集成到一个简化的端到端神经网络架构中，该架构无需关注，甚至无需 MLP 块（Mamba）。Mamba推理速度快（吞吐量比 Transformers 高 5 倍），序列长度呈线性扩展，其性能在百万长度的真实数据上得到了提高。在真实数据上的性能提高了一百万长度的序列。作为通用序列模型的骨干，Mamba 在语言、音频和基因组学等多种模式中实现了最先进的性能。在语言建模方面，我们的 Mamba-3B 模型在语言建模方面，我们的 Mamba-3B 模型在预训练和下游评估中均优于同等规模的 Transformers，并可与两倍于其规模的 Transformers 相媲美。

1.2 回顾Transformer

既然摘要中明确的和Transformer做出了对比，那么这里我们不妨先回顾一下Transformer，作为CV领域的“大红人”，为图像处理质量的提升做出了非常大贡献，经典原文：Attention Is All You Need 原文链接：1706.03762 (arxiv.org)

Transformer是一种深度学习模型架构，它在自然语言处理（NLP）和其他序列建模任务中取得了革命性的成功。Transformer模型的几个关键特点：

自注意力机制（Self-Attention）：Transformer模型的核心是自注意力机制，它允许模型在处理序列的每个元素时，考虑序列中所有位置的信息。这种机制使得模型能够捕捉到序列内部的长距离依赖关系。
并行化处理：由于自注意力机制不依赖于序列中元素的顺序，Transformer可以并行处理整个序列，这与传统的循环神经网络（RNN）形成对比，后者需要按顺序逐步处理序列。
可扩展性：Transformer模型的设计允许它很容易地扩展到更大的模型尺寸和更长的序列长度，这使得它能够处理复杂的任务和大量的数据。
编码器-解码器架构：在典型的Transformer模型中，包含编码器（Encoder）和解码器（Decoder）两个部分。编码器处理输入序列，而解码器生成输出序列。两者之间通过注意力机制进行交互。
位置编码：Transformer模型通过添加位置编码来使模型能够理解序列中单词的顺序。位置编码通常是与时间步长的正弦和余弦函数相关的固定向量。
多头注意力：Transformer模型使用多头注意力机制，它允许模型同时从不同的角度和抽象层次捕捉序列的信息。
层归一化和残差连接：Transformer模型在每个子层中使用层归一化（Layer Normalization）来稳定训练过程，并通过残差连接（Residual Connections）来帮助梯度流动，从而缓解深度网络中的梯度消失问题。
预训练和微调：Transformer模型通常在大量数据上进行预训练，学习通用的语言表示，然后可以在特定任务上进行微调，以提高任务性能。

Transformer的结构：

1.3 状态空间模型SSMs（State Space Models，简称SSMs)

继续回归主题：好好好，重点“可与Transformer相媲美”，看来功能确实强大，那我们来看看这个mamba具体结构是怎么样的：

首先提到Mamba，就必须要提及状态空间模型（State Space Models，简称SSMs)

SSMs是一种用于序列建模的深度学习架构。SSMs可以被视为循环神经网络（RNNs）和卷积神经网络（CNNs）的结合体，它们从经典的状态空间模型中获得灵感。SSMs能够有效地以线性或接近线性的复杂度处理序列数据，并且能够模拟某些数据模态中的长期依赖关系。

再来看一下SSMs的结构：

SSMs概述：结构化的ssm独立地映射输入

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/911954