当前位置:   article > 正文

ChatGLM、Baichuan、LLaMA、Vicuna对比总结_vicuna和llama的区别

vicuna和llama的区别

ChatGLM2-6B相对于ChatGLM1-6B(GLM)的重要改进点

  • 使用了Flash Attention将Context Length由ChatGLM的2k扩展到了32k
  • 使用Multi-Query Attention大幅提高了模型的推理速度
  • 使用了混合目标函数,该目标函数在ChatGLM中已经提出来了,但当时效果不好。ChatGLM2加入了Document-level Masking和Sentece-level Masking
  • 仓库中提供了友好的P-tuning代码,fine-tuning模型非常方便

这部分转载自 https://www.zhihu.com/question/608732789/answer/3141379386

Vicuna相比LLaMA1的改进点

Vicuna是LLama经过Instruction Fine Tune的版本。

Instruction Fine Tune和Prompt Engineer的区别

IFT involves actually training the model by changing its weights. The LLM’s weights are not changed in prompt Engineer

部分转载自 https://community.deeplearning.ai/t/confusion-between-instruction-fine-tuning-vs-prompt-engineering/491824

LLaMA2相比LLaMA1的改进

  • 模型结构基本和llama一样,transformer decoder结构,RMSNorm 应用预归一化、使用 SwiGLU 激活函数和旋转位置嵌入RoPE。
  • 上下文长度是由之前的2048升级到4096,可以理解和生成更长的文本。
  • 7B和13B 使用与 LLaMA 相同的架构,34B和70B模型采用分组查询注意力(GQA)。For speed up decoding! 自回归解码的标准做法(past key-value 机制)是缓存序列中先前标记的k,v矩阵,从而加快注意力计算速度。但上下文长度、批量大小、模型大小较大时,多头注意力(MHA)中的kv缓存无疑巨大。所以采用分组查询注意力机制(GQA)可以提高大模型的推理可扩展性。它的工作原理是将键和值投影在多个头之间共享,而不会大幅降低性能。可以使用具有单个KV投影的原始多查询格式(MQA)或具有8KV投影的分组查询注意力变体(GQA)
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/701917
推荐阅读
相关标签
  

闽ICP备14008679号