当前位置:   article > 正文

deepspeed分布式训练在pytorch 扩展(PyTorch extensions)卡住_deepspeed卡住

deepspeed卡住

错误展示:

Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...

Using /root/.cache/torch_extensions/py310_cu121 as PyTorch extensions root...

 

错误表现:

出现在多卡训练过程的pytorch 扩展,deepspeed 长时间卡住(1-2小时)

 PyTorch extensions 初次构建需要一定的时间,如果构建失败需要将之前构建的缓存删除,否则就有可能卡住较长的时间

  1. # 跳到用户目录
  2. cd ~
  3. # 展示所有的文件
  4. ls -alh
  5. # 上述步骤可以看到一个.cache的目录,需要删除 .cache 中与torch有关的缓存文件
  6. rm -rf ~/.cache/torch
  7. rm -rf ~/.cache/torch_extensions

重新运行训练脚本,程序work 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/708439
推荐阅读
相关标签
  

闽ICP备14008679号