当前位置:   article > 正文

快速评测已有的中文llama-3开源模型(4月25日更新)_llama3-chinese-novel

llama3-chinese-novel

Llama-3刚出来不到一周,就有一些中文微调模型了。

我快速的对这些模型进行了基准测试,时间仓促,没有办法面面俱到,仅供参考。

中文评测数据集选择的是C-Eval(valid),英文选择的是MMLU(valid),评测指标是准确率, 越高越好。

中文能力评测结果

以下是中文能力评测结果,按5-shot结果降序排列。标注HF表示hugging face上可获取,标注MS表示modelscope上可获取。 想下载对应模型需要在模型名前拼接:

- HF: https://huggingface.co

- MS: http://modelscope.cn

模型来源基底0-SHOT5-SHOT
shenzhi-wang/Llama3-8B-Chinese-ChatHF8B-inst47.7751.86
linjh1118/Llama3-Chinese-pro-8.4B-sft-1MMS8B-base46.5851.86
zhichen/Llama3-ChineseHF8B-base46.7351.56
baicai003/Llama3-Chinese_v2MS8B-base46.5151.56
zhuangxialie/Llama3_Chinese_SftMS?49.0351.49
OpenBuddy/openbuddy-llama3-8b-v21.1-8kHF?47.9951.41
Llama-3-8BHF-45.6950.81
baicai003/llama-3-8b-Instruct-chinese_v2MS8B-inst47.8550.74
Llama-3-8B-instructHF-48.0650.29
Azure99/blossom-v5-llama3-8bHF8B-base45.3250
FlagAlpha/Llama3-Chinese-8B-InstructHF?43.3147.33
UnicomLLM/Unichat-llama3-Chinese-8BHF8B-base40.2747.25
zhuangxialie/Llama3-Chinese-DPOMS?36.740.42

从上述结果可以看到,这些模型能力差别还是比较大的。有一大部分是低于原版英文Llama-3的效果的。

  • 其中性能较好的是: shenzhi-wang/Llama3-8B-Chinese-Cha,这个是基于8B-inst版训练的,所以效果好也是预期之内,因为原版也是inst版效果更好一些
  • 性能较差的是:zhuangxialie/Llama3-Chinese-DPO、UnicomLLM/Unichat-llama3-Chinese-8B、FlagAlpha/Llama3-Chinese-8B-Instruct

zhuangxialie/Llama3-Chinese-DPO感觉上是训坏了,能力下降太多,预计对话效果也不会太好。UnicomLLM这个从名字上看是某通讯厂商做的,可能是做的比较匆忙。FlagAlpha之前也有所耳闻,在Llama-2的时候就在github上,不过后来听说实际是引流卖课的,这我就不得而知了(我不买课,哈哈)。

英文能力评测结果

以下是英文能力结果,按5-shot结果降序排列。

从上述结果可以看到,

  • 其中性能较好的是: baicai003/llama-3-8b-instruct-chinese_v2,这个是基于8B-inst版训练的
  • 性能较差的和中文的情况一样:zhuangxialie/Llama3-Chinese-DPO、UnicomLLM/Unichat-llama3-Chinese-8B、FlagAlpha/Llama3-Chinese-8B-Instruct

英文能力这边似乎更糟糕,因为通过中文训练之后,大多数模型的英文能力都不如原版Llama-3(包括inst)的效果了,也是预期范围之内,毕竟我们主要关注的是中文能力。

结语

综上,中文社区动作还是非常快的,其中也不乏一些性能不错的模型。

基于8B-base版只做SFT的效果都比较一般,基于8B-inst效果会好一些。

当然,以上的评测也只是在两个代表性数据集上测了一下,具体的真实使用情况如何还需要进一步评测和探讨。同时也期待有更多Llama-3相关好用的模型放出。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/900470
推荐阅读
相关标签
  

闽ICP备14008679号