潦草答题卡、弯弯扭扭“虫爬体”,AI老师也能读懂…阅卷的人类极限要被突破了?
UNIST与POSTECH开发能批改手写数学答题的AI教师“Bemi”
批改准确度相当于GPT-4和Gemini 2.0 Flash,被EMNLP 2025录用
一位能够像人一样仔细批改歪歪扭扭数学答卷、甚至还能进行讲评修改的人工智能老师已经问世。
蔚山科学技术院(UNIST)人工智能研究生院的 Kim Taehwan 教授与浦项工科大学(POSTECH) Ko Seongan 教授团队于17日表示,他们开发出了可以批改手写复杂数学答卷的人工智能模型“VEHME(Vision-Language Model for Evaluating Handwritten Mathematics Expressions,手写数学表达式评估视觉语言模型)”。
研究团队成员(自左起)为UNIST的Kim Taehwan教授、POSTECH的Ko Seongan教授、UNIST的研究员Thu Phuong Nguyen、POSTECH的研究员Duc M. Nguyen。UNIST提供
View original image主观题数学试卷批改是教育现场最耗时的工作之一,但在自动化方面一直存在局限。由于数学解题的特性,公式、图表和图形交织在一起,而每名学生的字迹和答题布局又各不相同,因此人工智能很难准确识别并找出其中的错误。
研究团队开发的 VEHME 能够像人沿着解题思路那样,准确把握公式的位置和语境,并找出错误的解题过程。
研究人员利用 VEHME 对从微积分到小学算术水平的各类数学解题过程进行了批改实验。结果表明,尽管 VEHME 是轻量模型,却展现出与大型模型 GPT-4o、Gemini 2.0 Flash 相当的批改准确度。
尤其是在答卷严重旋转、字迹潦草等高难度场景下,VEHME 反而超越了商用模型,更准确地定位出错误位置。与使用70亿参数的 VEHME 不同,GPT 或 Gemini 等模型据悉都拥有数千亿以上的参数。
研究团队通过自研的“公式识别视觉提示(EVPM)”技术和“双重学习方法”实现了 VEHME。EVPM 会在复杂排列的公式上虚拟标出框线,帮助模型不丢失解题顺序。两阶段强化学习则不仅考察是否得出正确答案,还使模型能够说明解题过程中哪一部分、因何出错。
此外,由于可供人工智能学习的精细手写与批改数据并不充足,研究团队利用大型语言模型 QwQ-32B 生成了合成数据加以利用。
VEHME 以开源模型形式发布,学校、培训机构等教育机构可免费使用。
Kim Taehwan 教授表示:“手写数学批改既是教育科技人工智能的难题之一,也是需要同时理解图像与语言的多模态人工智能的代表性应用领域。VEHME 是一款能够像人一样逐步跟随复杂解题结构进行判断的模型,其在真实教育现场也可应用的稳定性与效率具有重要意义。”
他接着表示:“我们自主开发的 EVPM 模块,可以将复杂排列的视觉信息自动结构化,不仅可用于教育领域,也有望应用于文档识别、设计图纸分析、手写档案数字化等多个产业领域的多模态推理模型。”
本次研究在科学技术信息通信部韩国研究财团、信息通信企划评价院等机构的支持下完成,研究成果已被自然语言处理领域代表性国际学术会议 EMNLP(Empirical Methods in Natural Language Processing,自然语言处理实证方法)接收为正式论文。
今年的 EMNLP 于11月5日至9日在中国苏州举行。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。