赞
踩
开SP之后,72B能开到16K,7B能开到32K。
但是72B开16K,或者7B开32K时,如果训练时训练样本中有长文本的话,则还是会OOM。
相对于原repo加了一些代码适配性的问题。
Release tokenize code update · Carrie-Yi/pai-megatron-patch-xin · GitHub
这个repo中给Qwen2-CT改了yarn和cpu-offload,但是还没测试
Release apply_yarn_and_cpu_offload_without_test · Carrie-Yi/pai-megatron-patch-xin · GitHub
2、过滤长度过长的文本
训练数据中过滤掉过长的长文本,比如按照<=11K过
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。