赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
最近在搞一个关于Chatglm-6B
的项目,一个普通的回答要接近5秒钟,经过研究发现fastllm有明显的加速,加速后1.5秒,而且也没发现损失什么精度。
fastllm是纯C++
实现,无第三方依赖的高性能大模型推理库。6~7B级模型在安卓端上也可以流畅运行。今天不讨论安卓,讨论在CUDA上的部署。
开始之前你需要准备一些必要的环境。对于相关开发人员来说,这些环境应该基本都是有的。
Windows10
和Windows11
是可以的,经过实际测试的。
Clion-2023.2
或2023.3
版本都可以。我是在Clion上编译的,也可以在VS上编译,但是我这里只提供Clion的方法,VS的方法请自行研究。
2019
和2022
经过测试都是可以的,需要安装C++编译工具链。你也可以不完整安装VS,只安装工具链也行,这里就不说方法了,请自行研究。
经过测试3.9
和3.10
的版本都是可以的,最好使用Anaconda环境,操作起来方便。
CUDA环境是一定需要的,我这里使用的是11.8
,其它的环境应该也是没问题的。Windows安装CUDA环境的教程网上一大堆,大家自行搜索下。
Python环境比较容易,创建一个基于3.9的虚拟环境就行了。Windows上CUDA安装会自行配置环境变量。重点说下Clion,这里需要配置VS的编译环境,自带的MingW环境不行
。
点击File->Settings->Build->Toolchains,找不到的请把IDE改成英文,我是习惯了使用英文。
默认可能是没有VS环境的,需要手动添加的看下面的教程。前提是你已经安装好VS环境了。
主要是Toolset,这里只说2019和2022,略有差别,我也不可能在自己电脑上都装上。
VS2019:
选择安装路径下的Community
VS2022:
选择安装路径下的BuildTools
然后Archtecture
和你的操作系统有关系,我是64位系统
就选amd64
,其它的不用选会自动检测的。
切记:选完后将VS编译工具链移动到最顶上。
不知道自己的显卡的Compute
就去英伟达官网查询。
这个就不用教了吧,等待结束就行了,代码里出现了很多的Warning,不用担心,不影响使用。
1、原作者只给了Linux上的编译方法,Windows的还是费了些波折。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。