当前位置:   article > 正文

Qwen72B开源:推荐一个开源框架支持4GB显存推理70B大模型!!!(无需量化、剪枝)_airllm

airllm
https://github.com/lyogavin/Anima/tree/main

AirLLM优化inference内存,4GB单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩

Quickstart

pip install airllm

Inference

基本无感,跟transformers推理方法一致

  1. from airllm import AirLLMLlama2
  2. MAX_LENGTH = 128
  3. # could use hugging face model repo id:
  4. model = AirLLMLlama2("garage-bAInd/Platypus2-70B-instruct")
  5. # or use model's local path...
  6. #model = AirLLMLlama2("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")
  7. input_text = [
  8.         'What is the capital of United States?',
  9.         #'I like',
  10.     ]
  11. input_tokens = model.tokenizer(input_text,
  12.     return_tensors="pt"
  13.     return_attention_mask=False
  14.     truncation=True
  15.     max_length=MAX_LENGTH, 
  16.     padding=True)
  17.            
  18. generation_output = model.generate(
  19.     input_tokens['input_ids'].cuda(), 
  20.     max_new_tokens=2,
  21.     use_cache=True,
  22.     return_dict_in_generate=True)
  23. output = model.tokenizer.decode(generation_output.sequences[0])
  24. print(output)

其他

这个项目还有很酷的能力

  • 开源AirLLM,单卡4GB显存跑70B大模型,无需量化,无需模型压缩

  • 更新支持100k 上下文的基于Llama2的可商用大模型

  • 更新基于DPO+QLoRA的Human Feedback训练

  • 开源了第一个基于QLoRA的中文33B大语言模型

100k模型

当输入长度支持100k,你甚至可以把整个知识库都放入Prompt交给模型。或者可以把一本书直接放到Prompt里边。再也不用各种费劲的向量化,文本分割。。。。

我们堆了各种最新的猛料:XEntropy,Paged 8bit Adamw, LORA, Flashattention2,并且专门针对长输入对于training和Inference代码都做了修改定制,使得单卡100G就可以训练100k窗口。单卡40G就可以进行推理。

33B qlora

因此我们认为QLoRA 的工作很重要,重要到可能是个Game Changer。通过QLoRA的优化方法,第一次让33B规模的模型可以比较民主化的,比较低成本的finetune训练,并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力,又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/847142
推荐阅读
相关标签
  

闽ICP备14008679号