赞
踩
https://arxiv.org/abs/1802.05668
https://github.com/antspy/quantized_distillation
主要介绍了两种算法。
1)加入知识蒸馏loss的量化训练。
2)训练量化集p。
有一个浮点模型w,一个量化模型w^q,用量化模型计算前向loss(加上知识蒸馏的loss),对w^q计算梯度,用以更新浮点模型。每次前向计算之前用更新的浮点模型更新量化模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。