THUDM/chatglm2-6b-int4部署实战

作者：喵喵爱编程 | 2024-07-30 00:21:58

踩

chatglm2-6b-int4

大规模语言模型(LLM)的出现对自然语言处理领域带来了变革，然后大模型的训练，部署，推理都需要占用大量的计算资源。针对这一问题，一些参数，体积相对小的开源模型出现，如LLama-，vicuna，chatglm出现，同时为了进一步方便部署，降低硬件要求，推出了量化版模型chatglm2-6b-int4。

GPU

GPU： Telsa T4 RAM16G

资源消耗：系统的RAM4G，GPU的RAM6G


# 安装transformers等包
!pip install protobuf transformers==4.30.2 cpm_kernels torch>=2.0 gradio mdtex2html sentencepiece accelerate
 
# 导入AutoTokenizer, AutoModel
from transformers import AutoTokenizer, AutoModel
 
# 设置模型名称，选择THUDM/chatglm2-6b-int4模型，
# AutoTokenizer从huggingface中导入THUDM/chatglm2-6b-int4模型的tokenizer
model_id = "THUDM/chatglm2-6b-int4"       
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
 
# 输出“你今天吃了吗？”的tokenizer编码
encoding = tokenizer("你今天吃了吗？")
encoding
 
# 使用AutoModel加载模型model，从huggingface下载
# half()参数将模型数据从float32改为float16，缩小模型尺寸，加速模型
# cuda()将模型加载到GPU上，使用GPU的并行处理进行加速
# model.eval()运行在eval模式，关闭dropout等操作，更准确的输出
model = AutoModel.from_pretrained(model_id, trust_remote_code=True).half().cuda()
 
print(model.__class__)
 
model = model.eval()
 
# 进行推理
# prompt是输入
# response是推理的结果
# 模型model通过chat类得到结果
 
prompt = "你好"
response, history = model.chat(tokenizer, prompt, history=[])
response
 
你好声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/901234
推荐阅读
articleChatGLM2-6B模型的win10测试笔记_chatglm-6b win10...
ChatGLM2-6B 是开源中英双语对话模型ChatGLM-6B的第二代版本，在保留了初代模型对话流畅、部署门槛较低等...
                                    赞
踩
articleChatGLM2-6B在windows下的部署_chatglm2-6b部署windows...
ChatGLM2-6B在windows下的部署_chatglm2-6b部署windowschatglm2-6b部署win...
                                    赞
踩
articleWindows PC上从零开始部署ChatGML-6B-int4量化模型_chatglm-6b-in...
ChatGLM-6B是清华大学知识工程和数据挖掘小组（Knowledge Engineering Group (KEG)...
                                    赞
踩
articleChatGLM2-6b小白部署教程(windows系统，16G内存即可，对显卡无要求，CPU运行)_...
近期清华KEG和智谱AI公司一起发布了中英双语对话模型ChatGLM2-6B(小尺寸LLM)，本文整理出适合真正平民级玩...
                                    赞
踩
article实战之快速完成 ChatGLM3-6B 在 GPU-8G的 INT4 量化和本地部署_chatglm...
加载半精度的 ChatGLM3-6B 模型需要大概 13GB 内存。从上图也可以看到，ChatGLM3-6B-32K的话...
                                    赞
踩
articleChatGLM2-6B部署及使用_attributeerror: 'textbox' object ...
咳咳，工作需要，我一个Unity程序员去做AI相关的研究。从一开始的调用文心一言接口到现在自己部署ChatGLM2-6B...
                                    赞
踩
articleLLM-01 大模型 本地部署运行 ChatGLM2-6B-INT4(6GB) 简单上手 环境配置 ...
目前借到一台算法组的服务器，我们可以查看一下目前显卡的情况nvidia-smi(后续已经对CUDA等进行了升级，可看我的...
                                    赞
踩
article大模型部署：chatGLM2-6b-int4的CPU版部署_cannot load cpu or c...
可以保存到本地文件夹内，任意位置都可以（最好不要带中文和空格）。_cannot load cpu or cuda ker...
                                    赞
踩
articleChatGLM2-6B-Int4本地部署...
ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本_chatglm2-6b-int4ch...
                                    赞
踩
articleChatGLM2-6B-int4的部署步骤_A3...
本文详细介绍了如何在Ubuntu22.04.3系统上安装VisualGLM-6B环境，包括硬件要求、conda环境配置，...
                                    赞
踩
articleLLM-在CPU环境下如何运行ChatGLM-6B_chatglm-6b int4 在cpu上运行...
ChatGLM-6B-INT4 是 ChatGLM-6B 量化后的模型权重。具体的，ChatGLM-6B-INT4 对 ...
                                    赞
踩
articleChatGLM3-6B实践_chatglm3-6b int4 所需算力...
文章讨论了本地部署大模型时的训练、微调和推理需求，强调了高效微调方法如Freeze、Prefix-Tuning、P-Tu...
                                    赞
踩
相关标签
人工智能
语言模型
chatgpt
windows
机器学习
大模型
transformer
数据库
python
深度学习
自然语言处理
conda
pytorch
llm
gpt-3
gpt
ai
GLM2
pycharm
AI
AIGC
chatGLM2
LLM
chatglm2-6b