【AI实战】llama.cpp 量化部署 llama-33B

xiaoxingxing • 2023年8月22日上午8:37 • Python • 阅读 181

目录

【AI实战】llama.cpp 量化部署 llama-33B

llama.cpp 量化介绍
环境配置
安装 llama.cpp
- 拉取 llama.cpp 仓库代码
- 编译llama.cpp
生成量化版本模型
推理速度测试
参考

llama.cpp 量化介绍

量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的，花销更小，运行更快的模型。

Inference of LLaMA model in pure C/C++。

llama.cpp 运行期占用内存更小，推断速度也更快，同样的模型，7

文章出处登录后可见！

已经登录？立即刷新

赞 (0)

xiaoxingxing管理团队

0

分享一些Python代码加速工具！

上一篇 2023年8月22日

揭秘 ChatGPT：构建 AI 搜索的不同方法

下一篇 2023年8月22日