当前位置:   article > 正文

测试在 4090 上运行 vicuna-33b 进行推理

vicuna-33b

测试在 4090 上运行 vicuna-33b 进行推理

今天尝试在 4090 上运行 vicuna-33b 进行推理,使用的是 8bit 量化。

运行命令如下,

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-33b-v1.3 --load-8bit
  • 1

结论,使用 8bit 量化在 4090 上可以运行 vicuna-33b 进行推理,显存用到大概 23239MiB,GPU 使用率基本全程 100%,推理过程非常非常慢。
在这里插入图片描述

20230726追加:
有读者反馈 32G的V100 跑不起来,所以再次测试一边,以及上传测试截图。

在这里插入图片描述
在这里插入图片描述

完结!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/922115
推荐阅读
相关标签
  

闽ICP备14008679号