赞
踩
Llama-3刚出来不到一周,就有一些中文微调模型了。
我快速的对这些模型进行了基准测试,时间仓促,没有办法面面俱到,仅供参考。
中文评测数据集选择的是C-Eval(valid),英文选择的是MMLU(valid),评测指标是准确率, 越高越好。
以下是中文能力评测结果,按5-shot结果降序排列。标注HF表示hugging face上可获取,标注MS表示modelscope上可获取。 想下载对应模型需要在模型名前拼接:
- HF: https://huggingface.co
- MS: http://modelscope.cn
模型 | 来源 | 基底 | 0-SHOT | 5-SHOT |
---|---|---|---|---|
shenzhi-wang/Llama3-8B-Chinese-Chat | HF | 8B-inst | 47.77 | 51.86 |
linjh1118/Llama3-Chinese-pro-8.4B-sft-1M | MS | 8B-base | 46.58 | 51.86 |
zhichen/Llama3-Chinese | HF | 8B-base | 46.73 | 51.56 |
baicai003/Llama3-Chinese_v2 | MS | 8B-base | 46.51 | 51.56 |
zhuangxialie/Llama3_Chinese_Sft | MS | ? | 49.03 | 51.49 |
OpenBuddy/openbuddy-llama3-8b-v21.1-8k | HF | ? | 47.99 | 51.41 |
Llama-3-8B | HF | - | 45.69 | 50.81 |
baicai003/llama-3-8b-Instruct-chinese_v2 | MS | 8B-inst | 47.85 | 50.74 |
Llama-3-8B-instruct | HF | - | 48.06 | 50.29 |
Azure99/blossom-v5-llama3-8b | HF | 8B-base | 45.32 | 50 |
FlagAlpha/Llama3-Chinese-8B-Instruct | HF | ? | 43.31 | 47.33 |
UnicomLLM/Unichat-llama3-Chinese-8B | HF | 8B-base | 40.27 | 47.25 |
zhuangxialie/Llama3-Chinese-DPO | MS | ? | 36.7 | 40.42 |
从上述结果可以看到,这些模型能力差别还是比较大的。有一大部分是低于原版英文Llama-3的效果的。
zhuangxialie/Llama3-Chinese-DPO感觉上是训坏了,能力下降太多,预计对话效果也不会太好。UnicomLLM这个从名字上看是某通讯厂商做的,可能是做的比较匆忙。FlagAlpha之前也有所耳闻,在Llama-2的时候就在github上,不过后来听说实际是引流卖课的,这我就不得而知了(我不买课,哈哈)。
以下是英文能力结果,按5-shot结果降序排列。
MODEL | 来源 | 基底 | 0-shot | 5-shot |
---|---|---|---|---|
baicai003/llama-3-8b-Instruct-chinese_v2 | MS | 8B-inst | 62.6 | 64 |
Llama-3-8B-instruct | HF | - | 62.2 | 63.7 |
linjh1118/Llama3-Chinese-pro-8.4B-sft-1M | MS | 8B-base | 59.4 | 62.9 |
baicai003/Llama3-Chinese_v2 | MS | 8B-base | 60.4 | 62.6 |
Llama-3-8B | HF | - | 58.9 | 62.5 |
Azure99/blossom-v5-llama3-8b | HF | 8B-base | 61.1 | 62.2 |
shenzhi-wang/Llama3-8B-Chinese-Chat | HF | 8B-inst | 61.6 | 62.1 |
zhichen/Llama3-Chinese | HF | 8B-base | 60.4 | 62 |
zhuangxialie/Llama3_Chinese_Sft | MS | ? | 59.2 | 60.7 |
OpenBuddy/openbuddy-llama3-8b-v21.1-8k | HF | ? | 57.2 | 60.6 |
UnicomLLM/Unichat-llama3-Chinese-8B | HF | 8B-base | 56.2 | 60.3 |
FlagAlpha/Llama3-Chinese-8B-Instruct | HF | ? | 54.2 | 58.3 |
zhuangxialie/Llama3-Chinese-DPO | MS | ? | 47.4 | 51.4 |
从上述结果可以看到,
英文能力这边似乎更糟糕,因为通过中文训练之后,大多数模型的英文能力都不如原版Llama-3(包括inst)的效果了,也是预期范围之内,毕竟我们主要关注的是中文能力。
综上,中文社区动作还是非常快的,其中也不乏一些性能不错的模型。
基于8B-base版只做SFT的效果都比较一般,基于8B-inst效果会好一些。
当然,以上的评测也只是在两个代表性数据集上测了一下,具体的真实使用情况如何还需要进一步评测和探讨。同时也期待有更多Llama-3相关好用的模型放出。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。