赞
踩
大型语言模型(LLM)因其在各种任务上的出色泛化能力而备受关注。然而,基于 Transformer 的 LLM 在处理长文本输入时面临着巨大的挑战,主要原因是键值缓存(KV 缓存)的大小随着输入文本长度的增加而线性增长,以及处理长文本输入的内在复杂性。为了解决这个问题,研究人员提出了多种效率驱动的压缩方法,例如 KV 缓存量化、令牌丢弃、提示压缩、线性时间序列模型和混合架构等。
本文将对这些方法进行全面的基准测试,分析它们在不同长文本任务下的性能表现,并探讨未来长文本处理能力 LLM 的发展方向。
长文本处理能力是 LLM 的一项关键能力,它可以帮助我们完成一些传统上需要大量人力才能完成的复杂任务,例如书籍摘要、代码辅助等。然而,Transformer 架构的 LLM 在处理长文本输入时,KV 缓存的大小会随着批次中令牌数量的增加而线性增长,成为新的内存和速度瓶颈。
例如,一个具有 5000 亿参数的模型,批次大小为 128,文本长度为 8192,通常需要 3TB 的 KV 缓存,即使是最先进的硬件也难以承受如此巨大的处理负担 (Pope et al., 2023)。
为了解决这个问题,研究人员提出了多种效率驱动的压缩方法,这些方法可以大致分为以下几类:
线性时间序列模型,如 Mamba (Gu and Dao, 2023)、RWKV (Peng et al., 2023) 等,通过将文本压缩成更小的状态来处理长文本,避免了像 Transformer 那样存储整个文本。
然而,由于线性时间序列模型将关键信息与其他令牌混合在一起,因此它们不适合需要检索信息的的任务。为了解决这个问题,一些研究将线性时间序列模型与 Transformer 结合起来,例如 RecurrentGemma (Botev et al., 2024) 将输入相关的 RNN 与局部注意力机制相结合,Jamba (Lieber et al., 2024) 则将全注意力层和 Mamba 层结合起来。
量化方法通过使用更少的比特来表示 KV 缓存中的浮点数,从而减小 KV 缓存的大小。例如,FlexGen (Sheng et al., 2023) 使用分组量化,将标准的 16 位量化压缩到 4 位,而精度损失很小。
KIVI (Liu et al., 2024b) 和 KVQuant (Hooper et al., 2024) 通过引入每通道量化,将 KV 缓存量化推向了更低的比特数。最新的研究甚至将量化推向了 1 位 (Zhang et al., 2024a; Zandieh et al., 2024)。
值得注意的是,本文评估的所有 KV 缓存量化方法在预填充阶段都不使用量化的 KV 缓存,这意味着 KV 缓存量化只影响解码阶段。
基于注意力分数高度稀疏的观察,令牌丢弃方法从 KV 缓存中丢弃不重要的令牌 (Zhang et al., 2024c; Xiao et al., 2023, 2024)。
令牌丢弃方法主要分为两类:在预填充阶段丢弃令牌和在预填充阶段后丢弃令牌。在预填充阶段丢弃令牌意味着在生成 KV 缓存时丢弃令牌,而在预填充阶段后丢弃令牌意味着先生成完整的 KV 缓存,然后从中删除不重要的令牌。
本文评估的 StreamingLLM (Xiao et al., 2023) 和 InfLLM (Xiao et al., 2024) 属于在预填充阶段丢弃令牌的方法,而 H2O (Zhang et al., 2024c) 属于在预填充阶段后丢弃令牌的方法。
提示压缩方法将较长的提示压缩成较短的输入,从而减小 KV 缓存的大小。
LLMLingua (Jiang et al., 2023b) 通过将长提示转换为短提示,同时保持其自然语言格式,来提高 LLM 在长文本任务上的性能。LLMLingua 使用预算控制器动态分配压缩比率给不同的提示部分,以确保语义完整性。
为了评估不同长文本处理方法的性能,本文选择了 16 个不同的长文本任务,涵盖了 7 个主要类别,每个类别都需要不同的长文本处理能力,并涵盖了关键的应用场景。
由于不同长文本处理方法的设计原则差异很大,因此无法实现全局一致的比较。为了尽可能公平地比较不同方法,本文将不同方法压缩到一系列可用的目标压缩比。
本文通过提供一个详细且易于使用的管道来评估各种长文本处理方法在各种长文本任务中的性能,填补了关键的空白。本文对 11 种方法在 65 种设置下进行了全面的评估,为揭示许多以前未知的现象和见解奠定了经验基础。除了本文提出的经验和分析新颖性之外,本文的贡献还扩展到为所有感兴趣的学者提供了一个简约、可重复且可扩展的基准测试包。
尽管本文尽力涵盖各种长文本处理方法和多个基准模型,但由于人力和计算资源有限,不可避免地会遗漏一些符合条件且有趣的方法、某些有价值的任务或特定设置。
具体来说,本文只对参数小于 100 亿的模型进行了基准测试,而且本文的任务更侧重于长输入,而不是长生成。长生成也是长文本评估的一个重要方面,但由于长时间生成任务的开放性,其发展还不成熟。
在潜在风险方面,虽然本文旨在全面介绍特征方法和任务,但本文提醒读者,在高风险场景下,不要在没有进行适当评估的情况下直接采用本文的经验结论。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。