LLaMA 大语言模型系列论文阅读

作者：知新_RL | 2024-08-04 00:31:22

踩

LLaMA 大语言模型系列论文阅读

文章目录

1. LLaMA

1. LLaMA

paper：LLaMA: Open and Efﬁcient Foundation Language Models 《开源高效的基础语言模型》

code：https://github.com/meta-llama

单位：Meta AI

时间：2023.02

LLaMA 模型声称以更小的体积，在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格，其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构：transformer decoder-only 结构，与初始 Transformer 不同的地方包括采用了前置层归一化（Pre-normalization）、使用RMSNorm 归一化函数（Normalizing Function）、激活函数更换为SwiGLU、使用旋转位置嵌入（RoP）

优化器：AdamW