潦草答题卡、弯弯扭扭“虫爬体”，AI老师也能读懂…阅卷的人类极限要被突破了？

Published 17 Dec.2025 09:16(KST)

Updated 17 Dec.2025 14:18(KST)

open/close

UNIST与POSTECH开发能批改手写数学答题的AI教师“Bemi”

批改准确度相当于GPT-4和Gemini 2.0 Flash，被EMNLP 2025录用

一位能够像人一样仔细批改歪歪扭扭数学答卷、甚至还能进行讲评修改的人工智能老师已经问世。

蔚山科学技术院（UNIST）人工智能研究生院的 Kim Taehwan 教授与浦项工科大学（POSTECH） Ko Seongan 教授团队于17日表示，他们开发出了可以批改手写复杂数学答卷的人工智能模型“VEHME（Vision-Language Model for Evaluating Handwritten Mathematics Expressions，手写数学表达式评估视觉语言模型）”。

研究团队成员（自左起）为UNIST的Kim Taehwan教授、POSTECH的Ko Seongan教授、UNIST的研究员Thu Phuong Nguyen、POSTECH的研究员Duc M. Nguyen。UNIST提供

主观题数学试卷批改是教育现场最耗时的工作之一，但在自动化方面一直存在局限。由于数学解题的特性，公式、图表和图形交织在一起，而每名学生的字迹和答题布局又各不相同，因此人工智能很难准确识别并找出其中的错误。

研究团队开发的 VEHME 能够像人沿着解题思路那样，准确把握公式的位置和语境，并找出错误的解题过程。

研究人员利用 VEHME 对从微积分到小学算术水平的各类数学解题过程进行了批改实验。结果表明，尽管 VEHME 是轻量模型，却展现出与大型模型 GPT-4o、Gemini 2.0 Flash 相当的批改准确度。

尤其是在答卷严重旋转、字迹潦草等高难度场景下，VEHME 反而超越了商用模型，更准确地定位出错误位置。与使用70亿参数的 VEHME 不同，GPT 或 Gemini 等模型据悉都拥有数千亿以上的参数。

研究团队通过自研的“公式识别视觉提示（EVPM）”技术和“双重学习方法”实现了 VEHME。EVPM 会在复杂排列的公式上虚拟标出框线，帮助模型不丢失解题顺序。两阶段强化学习则不仅考察是否得出正确答案，还使模型能够说明解题过程中哪一部分、因何出错。

此外，由于可供人工智能学习的精细手写与批改数据并不充足，研究团队利用大型语言模型 QwQ-32B 生成了合成数据加以利用。

VEHME 以开源模型形式发布，学校、培训机构等教育机构可免费使用。

Kim Taehwan 教授表示：“手写数学批改既是教育科技人工智能的难题之一，也是需要同时理解图像与语言的多模态人工智能的代表性应用领域。VEHME 是一款能够像人一样逐步跟随复杂解题结构进行判断的模型，其在真实教育现场也可应用的稳定性与效率具有重要意义。”

他接着表示：“我们自主开发的 EVPM 模块，可以将复杂排列的视觉信息自动结构化，不仅可用于教育领域，也有望应用于文档识别、设计图纸分析、手写档案数字化等多个产业领域的多模态推理模型。”

VEHME型号的整体结构。

本次研究在科学技术信息通信部韩国研究财团、信息通信企划评价院等机构的支持下完成，研究成果已被自然语言处理领域代表性国际学术会议 EMNLP（Empirical Methods in Natural Language Processing，自然语言处理实证方法）接收为正式论文。

必读新闻

“股票不用交税” 明年起年超250万韩元币圈收益征税…投资者强烈反对

今年的 EMNLP 于11月5日至9日在中国苏州举行。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。

潦草答题卡、弯弯扭扭“虫爬体”，AI老师也能读懂…阅卷的人类极限要被突破了？

UNIST与POSTECH开发能批改手写数学答题的AI教师“Bemi”批改准确度相当于GPT-4和Gemini 2.0 Flash，被EMNLP 2025录用

必读新闻

不容错过的热点

UNIST与POSTECH开发能批改手写数学答题的AI教师“Bemi”

批改准确度相当于GPT-4和Gemini 2.0 Flash，被EMNLP 2025录用