当前位置:   article > 正文

fastllm移植到Windows加快LLM推理_fastllm windows部署

fastllm windows部署

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

最近在搞一个关于Chatglm-6B的项目,一个普通的回答要接近5秒钟,经过研究发现fastllm有明显的加速,加速后1.5秒,而且也没发现损失什么精度。


一、fastllm是什么?

fastllm是纯C++实现,无第三方依赖的高性能大模型推理库。6~7B级模型在安卓端上也可以流畅运行。今天不讨论安卓,讨论在CUDA上的部署。

fastllm源代码

二、环境准备

开始之前你需要准备一些必要的环境。对于相关开发人员来说,这些环境应该基本都是有的。

1.操作系统

Windows10Windows11是可以的,经过实际测试的。

2.Clion

Clion-2023.22023.3版本都可以。我是在Clion上编译的,也可以在VS上编译,但是我这里只提供Clion的方法,VS的方法请自行研究。

3.Visual Studio

20192022经过测试都是可以的,需要安装C++编译工具链。你也可以不完整安装VS,只安装工具链也行,这里就不说方法了,请自行研究。

4.Python

经过测试3.93.10的版本都是可以的,最好使用Anaconda环境,操作起来方便。

5.CUDA

CUDA环境是一定需要的,我这里使用的是11.8,其它的环境应该也是没问题的。Windows安装CUDA环境的教程网上一大堆,大家自行搜索下。

三、配置环境

Python环境比较容易,创建一个基于3.9的虚拟环境就行了。Windows上CUDA安装会自行配置环境变量。重点说下Clion,这里需要配置VS的编译环境,自带的MingW环境不行

点击File->Settings->Build->Toolchains,找不到的请把IDE改成英文,我是习惯了使用英文。

在这里插入图片描述

默认可能是没有VS环境的,需要手动添加的看下面的教程。前提是你已经安装好VS环境了。
在这里插入图片描述
在这里插入图片描述
主要是Toolset,这里只说2019和2022,略有差别,我也不可能在自己电脑上都装上。
在这里插入图片描述

VS2019:
选择安装路径下的Community

VS2022:
选择安装路径下的BuildTools

然后Archtecture和你的操作系统有关系,我是64位系统就选amd64,其它的不用选会自动检测的。

切记:选完后将VS编译工具链移动到最顶上。

在这里插入图片描述

四、构建

1.打开CUDA选项

在这里插入图片描述

2.配置Compute

在这里插入图片描述
不知道自己的显卡的Compute就去英伟达官网查询。

查询Compute

在这里插入图片描述

五、编译

这个就不用教了吧,等待结束就行了,代码里出现了很多的Warning,不用担心,不影响使用。


总结

1、原作者只给了Linux上的编译方法,Windows的还是费了些波折。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/260453?site
推荐阅读
相关标签
  

闽ICP备14008679号