当前位置:   article > 正文

[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路

[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路

Pai-Megatron-Patch (mcore代码)

长文本限制:

开SP之后,72B能开到16K,7B能开到32K。

但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的话,则还是会OOM。

code:

相对于原repo加了一些代码适配性的问题。 

Release tokenize code update · Carrie-Yi/pai-megatron-patch-xin · GitHub

解决方案:

1、cpu-offload

这个repo中给Qwen2-CT改了yarn和cpu-offload,但是还没测试

Release apply_yarn_and_cpu_offload_without_test · Carrie-Yi/pai-megatron-patch-xin · GitHub

2、过滤长度过长的文本

训练数据中过滤掉过长的长文本,比如按照<=11K过

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/861705
推荐阅读
相关标签
  

闽ICP备14008679号