当前位置:   article > 正文

NVIDIA INT4量化算法介绍

int4量化

MLPerf是由来自学界和业界的多个组织(包括Google、Baidu、Intel、AMD、哈佛和斯坦福)共同发布的新型AI基准平台,用于衡量机器学习平台的AI性能,是目前业界最权威、最公正的AI性能评测平台之一。MLPerf目前已推出v0.5评测结果,参赛队伍包括Alibaba、NVIDIA、Google、Huawei等世界知名企业。

MLPerf详情见官方网站的介绍:https://www.mlperf.org/

其中,MLPerf Inference Resnet50-v1.5 Open Division在不限定模型结构的前提下,要求Top-1精度至少为76.46的99%(约75.7),并且要求模型部署在指定平台上的吞吐率(以QPS作为衡量)尽可能高。NVIDIA在MLPerf Inference Resnet50-v1.5 Open Division提交了基于INT4量化的比赛成绩,并取得了Top-1 Acc.=76.104的优秀评测结果。

NVIDIA的INT4量化算法概述如下:

  • 在Calibration dataset上执行模型的前向推理,收集每个layer输入激活的直方图分布;
  • 选取直方图分布的99.999%位点,作为数值分布范围,用以计算每个layer的INT4量化的scaling factor;
  • 根据新的scaling factor,重新完成每个layer的伪量化;
  • 在训练集上fine-tune伪量化模型,持续一个epoch;
  • 如此反复迭代,直至INT4伪量化训练收敛;

具体可参考:https://devblogs.nvidia.com/int4-for-ai-inference/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/254309
推荐阅读
相关标签
  

闽ICP备14008679号