[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路

作者：知新_RL | 2024-07-21 17:41:35

踩

Pai-Megatron-Patch (mcore代码)

开SP之后，72B能开到16K，7B能开到32K。

但是72B开16K，或者7B开32K时，如果训练时训练样本中有长文本的话，则还是会OOM。

相对于原repo加了一些代码适配性的问题。

这个repo中给Qwen2-CT改了yarn和cpu-offload，但是还没测试

2、过滤长度过长的文本

训练数据中过滤掉过长的长文本，比如按照<=11K过

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/861705