汉阳大学于23日表示,融合电子工学部教授 Choi Jeonguk 研究团队开发出了用于超低精度(三值量化)语言模型量化感知训练的知识蒸馏算法。
在对生成式语言模型进行推理运算时,需要海量的存储空间和计算成本。采用权重量化方式的压缩技术,是在保持语言模型结构不变的前提下,降低用于存储模型权重数据精度的一种方法。其中,三值量化方式是指将模型权重仅表示为 -1、0 和 1 共三种取值。然而,该方法存在使模型原有性能大幅下降的局限。为弥补这一问题,研究界正积极探索在应用量化的学生模型上引入知识蒸馏技术,从而实现量化感知训练的方法。
用于三值量化感知训练的“以令牌为单位”的知识蒸馏技术,是基于生成式语言模型在量化过程中表现出的特性而提出的,可将量化导致的性能下降影响降至最低。借此,相比既有的知识蒸馏技术,该方法能够实现更高幅度的性能提升。
研究团队针对多种生成式语言模型,通过语言建模与常识推理任务验证了 TSLD 方法论。结果显示,应用三值量化的模型在与浮点数模型比较时,准确率下降幅度控制在 1 以下,创下了最佳性能记录。
本报道由人工智能(AI)翻译技术生成。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。