当前位置:   article > 正文

错误:ERROR:torch.distributed.elastic.multiprocessing.api:failed

error:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 2) loc

在多卡运行时,会出现错误(ERROR:torch.distributed.elastic.multiprocessing.api:failed),但是单卡运行并不会报错,通常在反向梯度传播时多卡梯度不同步。但我是在多卡处理数据进行tokenizer阶段报错,这竟然也会出错,还没涉及到训练,有点不明所以。

1. 错误

在这里插入图片描述

2. 解决方法

设置find_unused_parameters=True.

3. 参考

[1] https://blog.csdn.net/QLeelq/article/details/130404416
[2] https://zhuanlan.zhihu.com/p/592515484

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/390401
推荐阅读
相关标签
  

闽ICP备14008679号