赞
踩
论文地址:
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
https://arxiv.org/abs/2404.14047
这篇论文旨在评估LLAMA3模型在低比特量化(1-8位)下的性能表现,特别是在资源受限的环境中。通过对现有的后训练量化(PTQ)和LoRA微调量化(LoRA-FT)方法进行全面评估,研究其在LLAMA3模型上的适用性及其性能衰减问题。期望通过这项研究为未来开发更高效的低比特量化方法提供参考。
论文的新颖性体现在以下几个方面:
量化是将高精度数字转换为低精度数字,以减少存储和计算资源。具体步骤如下:
反量化是将量化后的数据恢复到高精度格式。步骤包括:
应用反量化公式:使用比例因子将量化数据还原。
注意误差:反量化可能导致数据不完全准确。
GPTQ 是一种用于4位量化的训练后量化 (PTQ) 方法,旨在优化GPU推理和性能。其核心思想是通过将所有权重压缩到4位量化中来最小化均方误差,并在推理过程中动态地将权重解量化为float16。具体步骤包括缩放、四舍五入、限制范围和反缩放。
关键点:
GGUF 是 GGML 的新版本,允许在 CPU 上运行 LLM,同时将部分层次转移到 GPU 上以加速运行。尽管使用 CPU 通常比使用 GPU 进行推理要慢,但对于在 CPU 或 Apple 设备上运行模型的人来说,这是一种很好的格式。GGUF 提供了从2到8位精度的不同量化级别,并支持将原始的LLaMA模型转换为GGUF格式,然后量化为较低的精度。
PTQ 是一种在模型训练后进行量化的方法,通过将浮点数权重和激活转换为较低精度的表示,来减小模型大小和计算复杂度,同时保持精度损失较小。PTQ 分为只量化模型权重的方法和同时量化权重和激活的方法。
QAT 在训练过程中模拟量化,使模型适应更低的位宽而不损失精度。QAT 涉及在训练过程中对模型进行量化操作,并在必要时进行反量化,从而在不显著影响精度的情况下实现量化。
AWQ 是一种量化方法,假设并非所有权重对 LLM 的性能同等重要,因此只量化不重要的权重。此方法在保持性能的同时实现显著的加速,适用于GPU和CPU。
量化过程包括:
校准:确定权重和激活的分布。
确定重要的激活和相应的权重。
缩放:将关键实体放大,量化其余权重为较低精度。
AQLM 于2024年2月发布,是一种仅权重后训练量化(PTQ)算法,可将模型权重量化到2位范围,同时保持准确性。与现有方法相比,AQLM 提供了更小的基准改进,适用于3位和4位范围,优于 GPTQ 和其他近期方法。
困惑度是衡量语言模型预测下一个词的准确性的指标。具体来说,它表示的是模型的不确定性。困惑度越低,表示模型越能准确预测文本中的下一个词。
常识问答准确率是衡量模型在常识推理任务中表现的指标。CommonSenseQA数据集包含一系列常识性问题,模型需要从多个选项中选择最符合常识的答案。准确率表示模型选择正确答案的比例。
MMLU(Massive Multitask Language Understanding)是一个多任务语言理解评估基准,包含多个不同领域的任务,如人文学科、STEM(科学、技术、工程、数学)、社会科学和其他领域。MMLU准确率表示模型在这些任务上的平均表现。
具体评估如下:
人文学科(Hums.):包括文学、历史、哲学等。
STEM:包括数学、物理、化学、计算机科学等。
社会科学(Social):包括心理学、社会学、经济学等。
其他(Other):包括一些跨学科或不属于上述类别的任务。
在量化神经网络模型时,我们需要将浮点数表示的权重和激活值转换为更低精度的表示形式(例如8位、4位、2位等),以减少模型的存储需求和计算复杂度。#W、#A、#G是量化过程中涉及的三个关键参数:
#W表示模型权重被量化到多少位(bit)。权重是神经网络中连接不同神经元的参数,这些参数决定了输入数据如何通过网络进行传播和变换。通常,权重以32位浮点数(FP32)表示,但为了减少存储空间和计算需求,可以将其量化到更少的位数,如8位(int8)、4位(int4)甚至更低。
例如:
#A表示模型激活值被量化到多少位。激活值是神经元在接受输入并经过激活函数(如ReLU、Sigmoid、Tanh)处理后的输出。这些输出值在网络的前向传播过程中会被传递到下一层神经元。
例如:
#G表示在分块量化(grouped quantization)过程中使用的组的大小。分块量化是一种优化策略,它将模型的参数分成多个小块,然后对每个小块分别进行量化。这样可以在保持量化精度的同时,进一步减少存储需求和计算复杂度。
LLAMA3-8B
LLAMA3-70B
LoRA微调量化
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。