vllm+llama3.1部署！_vllm llama3.1

作者：神奇cpp | 2024-08-11 13:46:24

踩

vllm llama3.1

与我之前写的部署qwen2一样步骤：
vllm+qwen2部署！_vllm部署qwen2-CSDN博客

须注意的是：
启动 llama3.1_8b_instruct 需要将 transfomers 更新到最新 4.43.2 版本！

pip install --upgrade transformers

参考：最新LLM Llama3.1 を AWQ で4bit量子化して GPUサーバーに乗せてチャットできるようにした #Python - Qiita

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model /你自己的路径/modles/llama3.1_8b_instruct --served-model-name llama3.1_8b_instruct --max-model-len=2048 --dtype=half --tensor-parallel-size=2

成功启动！

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】