模型量化

Llama2通过llama.cpp模型量化 Windows&Linux本地部署什么是LLaMA 1 and 2 LLaMA，它是一组基础语言模型，参数范围从7B到65B。…

IT 2023年12月7日

22300

技术文章

目录模型支持量化onnx原生模型：quantize_onnx_model 输入输出执行流程 ONNX格式解析后记模型支持 openppl支持了三种模型：onnx、caff…

2023年3月1日

33000

技术文章

目录前面四篇博客其实就讲了下面两行代码： ppq_ir = load_onnx_graph(onnx_import_file=onnx_import_file) ppq_ir =…

2023年2月25日

40700

技术文章

目录前言上一篇博客讲了计算图的加载和预处理，真是费了不少劲啊…… 这一篇博客和大家一起学习PPQ精髓之一：计算图的分割与调度。第一讲就说过PPQ把计算图分成了三类：可量化、不可…

2023年2月23日

37900

0. 前言针对深度学习模型的边缘、移动端部署，模型量化已经成为必不可少的压缩手段。一方面，将模型权重量化为低比特，可缓解模型存储的负担（例如INT8量化的理论压缩比为4倍）；另一…

技术文章 2022年5月17日

50400