赞
踩
GPU占用内存 = 模型权重 + 梯度 + 优化器内存(动量估计和梯度方差) + 中间激活值*batchsize + GPU初始化内存
(选基座 —> 扩词表 —> 采样&切分数据 —> 设置学习参数 —> 训练 —> 能力测评)
https://zhuanlan.zhihu.com/p/636270877
大部分优秀的语言模型都没有进行充分的中文预训练,因此,许多工作都尝试将在英语上表现比较优秀的模型用中文语料进行二次预训练。比如:[Chinese-LLaMA-Alpaca]。
tokenizer 有 2 种常用形式:WordPiece 和 BPE。
WordPiece:将所有的「常用字」和「常用词」都存到词表中,当需要切词的时候就从词表里面查找即可。BERT 就使用的这种切词法。
当遇到词表中不存在的字词时,tokenizer 会将其标记为特殊的字符 [UNK]
Byte-level BPE(BBPE):按照 unicode 编码作为最小粒度。对于中文来讲,一个汉字是由 3 个 unicode 编码组成的(LLaMA 的 tokenizer 对中文就是如此)
能用unicode表示的汉字都可以训练,但模型需要通过充分学习来知道合法的 unicode 序列。当训练不充分则会出现乱码(不合法的 unicode 序列)
为了降低模型的训练难度,将一些常见的汉字 token 手动添加到原来的 tokenizer 中。
输入语料让大模型进行Next Token Prediction 任务
在继续预训练中,我们通常会使用 warmup 策略,此时我们按照 2 种不同情况划分:
Five-shot评分:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。