马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载_grok-1下载

作者：很楠不爱3 | 2024-03-23 07:43:59

踩

grok-1下载

今天凌晨，马斯克旗下的大型模型公司 xAI 宣布正式开源了一款名为「Grok-1」的混合专家（MoE）模型，该模型包含着 3140 亿个参数，成为当前参数量最大的开源大语言模型之一。

封面图是使用 Midjourney 生成的神经网络的 3D 插图，展示了透明节点和发光连接，以及不同粗细和颜色的连接线展示了不同的权重。

在这一时刻，马斯克当然不会错过嘲讽 OpenAI 的机会，他表示「我们对了解更多关于 OpenAI 的开放部分感兴趣」。

关于模型本身，Grok-1 是从头开始训练的，没有针对特定应用（如对话）进行微调。与此相反，在 X 平台上可用的 Grok 大模型是微调过的版本，其行为和原始权重版本并不相同。

Grok-1 的模型细节包括：

基础模型基于大量文本数据进行训练，没有针对任何具体任务进行微调。
3140 亿参数的 MoE 模型，激活权重为 25%。
xAI 使用 JAX 库和 Rust 语言组成的自定义训练堆栈从头开始训练。
xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件，无论是个人还是商业用途。

项目发布截止目前为止已经获得了 8.5 k 星标，并且热度还在持续增加中。

该存储库包含了用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。用户需要先下载 checkpoint，并将 ckpt-0 目录放置在 checkpoint 中，然后运行示例代码进行测试：

pip install -r requirements.txt
python run.py
1
2

项目说明中明确强调，由于 Grok-1 是一个参数规模庞大的模型（314B 参数），因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外，该存储库中 MoE 层的实现效率并不高，选择这种实现方式是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和提供的磁力链接来下载权重文件。

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
1

一些技术人员对 314B 参数的 Grok-1 需要的配置表示好奇，根据他们的估算，可能需要一台拥有 628 GB GPU 内存的机器（每个参数 2 字节）。这意味着8块 H100（每块 80GB）的 GPU 就足够了。

在技术社区中，Grok-1 的开源引发了不少讨论。开源社区指出，该模型在前馈层中使用了 GeGLU，并采用了有趣的 sandwich norm 技术进行归一化。甚至连 OpenAI 的员工也表达了对该模型的兴趣。

总的来说，Grok-1 的开源程度超过了一些具有使用限制的开放权重模型，但相比于 Pythia、Bloom 和 OLMo 等模型，其开源程度仍有所不足。这些模型附带了训练代码和可复现的数据集。

DeepMind 的研究工程师 Aleksa Gordié 预测，Grok-1 的能力应该比 LLaMA-2 要强，但目前尚不清楚有多少数据受到了污染。同时，Grok-1 和 LLaMA-2 的参数量也不是一个量级。

一位推特用户 @itsandrewgao 对 Grok-1 的架构细节进行了详细分析，并做出了一系列总结。

至于 Grok-1 的具体能力以及它是如何运作的，目前还有待进一步。

个人简介

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/293944