测试在 4090 上运行 vicuna-33b 进行推理

作者：小惠珠哦 | 2024-08-03 07:54:25

踩

vicuna-33b

今天尝试在 4090 上运行 vicuna-33b 进行推理，使用的是 8bit 量化。

运行命令如下，

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-33b-v1.3 --load-8bit
1

结论，使用 8bit 量化在 4090 上可以运行 vicuna-33b 进行推理，显存用到大概 23239MiB，GPU 使用率基本全程 100%，推理过程非常非常慢。
在这里插入图片描述

20230726追加：
有读者反馈 32G的V100 跑不起来，所以再次测试一边，以及上传测试截图。

在这里插入图片描述

完结！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/922115