汉阳大学开发“量化感知知识蒸馏学习技术”

by Lim Chunhan

Published 23 Nov.2023 16:39(KST)

汉阳大学于23日表示，融合电子工学部教授 Choi Jeonguk 研究团队开发出了用于超低精度（三值量化）语言模型量化感知训练的知识蒸馏算法。

研究结果示意图。汉阳大学提供

在对生成式语言模型进行推理运算时，需要海量的存储空间和计算成本。采用权重量化方式的压缩技术，是在保持语言模型结构不变的前提下，降低用于存储模型权重数据精度的一种方法。其中，三值量化方式是指将模型权重仅表示为 -1、0 和 1 共三种取值。然而，该方法存在使模型原有性能大幅下降的局限。为弥补这一问题，研究界正积极探索在应用量化的学生模型上引入知识蒸馏技术，从而实现量化感知训练的方法。

用于三值量化感知训练的“以令牌为单位”的知识蒸馏技术，是基于生成式语言模型在量化过程中表现出的特性而提出的，可将量化导致的性能下降影响降至最低。借此，相比既有的知识蒸馏技术，该方法能够实现更高幅度的性能提升。