当前位置:   article > 正文

vllm+llama3.1部署!_vllm llama3.1

vllm llama3.1

与我之前写的部署qwen2一样步骤:
vllm+qwen2部署!_vllm部署qwen2-CSDN博客

须注意的是:
启动 llama3.1_8b_instruct  需要将 transfomers 更新到最新 4.43.2 版本!

pip install --upgrade transformers

参考:最新LLM Llama3.1 を AWQ で4bit量子化して GPUサーバーに乗せて チャットできるようにした #Python - Qiita

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model /你自己的路径/modles/llama3.1_8b_instruct  --served-model-name llama3.1_8b_instruct --max-model-len=2048 --dtype=half --tensor-parallel-size=2

成功启动!

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号