模型量化
-
Llama2通过llama.cpp模型量化 Windows&Linux本地部署
Llama2通过llama.cpp模型量化 Windows&Linux本地部署 什么是LLaMA 1 and 2 LLaMA,它是一组基础语言模型,参数范围从7B到65B。…
-
OpenPPL PPQ量化(2):离线静态量化 源码剖析
目录 模型支持 量化onnx原生模型:quantize_onnx_model 输入输出 执行流程 ONNX格式解析 后记 模型支持 openppl支持了三种模型:onnx、caff…
-
OpenPPL PPQ量化(5):执行引擎 源码剖析
目录 前面四篇博客其实就讲了下面两行代码: ppq_ir = load_onnx_graph(onnx_import_file=onnx_import_file) ppq_ir =…
-
OpenPPL PPQ量化(4):计算图的切分和调度 源码剖析
目录 前言 上一篇博客讲了计算图的加载和预处理,真是费了不少劲啊…… 这一篇博客和大家一起学习PPQ精髓之一:计算图的分割与调度。第一讲就说过PPQ把计算图分成了三类:可量化、不可…
-
Generative Data-free Quantization——生成式无数据训练后量化方法
0. 前言 针对深度学习模型的边缘、移动端部署,模型量化已经成为必不可少的压缩手段。一方面,将模型权重量化为低比特,可缓解模型存储的负担(例如INT8量化的理论压缩比为4倍);另一…