赞
踩
一、安装cmake
https://cmake.org/
因为我使用是win10系统cmake版本是3.26.4,请根据自己系统选择版本。
二、下载源码
- git clone https://github.com/ggerganov/llama.cpp.git
-
-
-
- #进入llama.cpp文件夹
-
- cd llama.cpp
-
- mkdir build
-
- cd build
-
-
-
- #编译llama.cpp
-
- cmake .. -G "Visual Studio 16 2019" -DLLAMA_CUBLAS=on -DLLAMA_CUDA_F16=1 -DCMAKE_CUDA_ARCHITECTURES=75 -DCMAKE_GENERATOR_TOOLSET="cuda=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1"

三、编译成功样子
在llama.cpp\build\bin\Release
四、gguf模型转换
- #下载llava-v1.5-7b模型放在llama.cpp文件夹下
-
- #下载openaiclip-vit-large-patch14-336模型放在llama.cpp文件夹下
-
- cd llama.cpp
-
-
-
- #模型拆分
-
- python examples/llava/llava-surgery.py -m llava-v1.5-7b
-
-
-
- #转换为 GGUF
-
- python examples/llava/convert-image-encoder-to-gguf.py -m openaiclip-vit-large-patch14-336 --llava-projector llava-v1.5-7b/llava.projector --output-dir llava-v1.5-7b
-
-
-
- #转换为 GGUF:convert.py
-
- python convert.py llava-v1.5-7b --skip-unknown

注意:完成上述步骤后在llava-v1.5-7b文件夹会多出两个文件ggml-model-f16.gguf和mmproj-model-f16.gguf把这两个文件复制到llama.cpp/models就可以运行服务器了。
五、模型转换成功的样子
六、运行刚才转换的模型
- #打开命令行进入llama.cpp文件夹
-
-
-
- cd llama.cpp
-
-
-
- #在命令行输入下面命令运行模型服务器
-
- build/bin/Release/server -m models/ggml-model-f16.gguf --mmproj models/mmproj-model-f16.gguf --port 8080 -ngl 35 -t 20
七、模型服务器运行样子
八、前端运行样子
九、模型转换到应用探索结束
如遇编译错误
已经编译好的版本见知识星球-xingxingyu
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。