首尔市立大学9日表示,数学系三年级在读本科生Ha Junu以共同第一作者身份参与的论文《One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs》(一次输入就足够:将多轮攻击整合为高效的单轮提示以攻击大规模语言模型),已被自然语言处理领域世界最高权威学术会议——2025年计算语言学协会年会(ACL 2025,Association for Computational Linguistics)主会场接收。
ACL是计算语言学及自然语言处理领域最具权威性的国际学术会议,也是全球人工智能研究者最为关注的学术盛会。
该论文的正式报告预计将于本月28日至30日在奥地利维也纳的奥地利维也纳会议中心(Austria Center Vienna)举行。
尤其值得关注的是,这篇论文由一名本科三年级学生在主会场发表,被视为极为罕见的成绩,因而备受瞩目。
该研究提出了一种将大规模语言模型(LLM)的多轮攻击压缩为单轮攻击的新方法,同时实现了95.9%的攻击成功率,并最多节省80%的令牌数量,可谓“一举两得”。
外界评价认为,该成果系统性地揭示了大规模语言模型潜在的安全脆弱性,并为更安全的人工智能开发提出了新的标杆。
以往研究中,为了提高攻击效率,多采用多轮提示策略;而Ha Junu本科生则证明,即便将其压缩为单轮提示,也可以复现相同甚至更高的攻击威胁。
研究团队开发的“M2S(Multi-turn-to-Single-turn,多轮转单轮)”框架,通过“连字符化”“数字化”“Python化”三阶段策略,将复杂对话转换为结构化的单轮提示。
实验结果显示,在Mistral-7B语言模型上,该方法实现了95.9%的攻击成功率,比GPT-4o提升了17.5个百分点;同时可节省70%至80%的令牌,大幅降低实现同一攻击目标所需的计算资源。
Ha Junu本科生表示:“这是在兼顾课程学习的同时获得的实战研究经验。我在初创公司和学校之间来回奔波,与共同第一作者Kim Hyeonjun研究员一起定义并解决人工智能安全问题,这一过程成为宝贵资产。”
他接着表示:“如果用户只输入一行文字就能复现同等威胁,那么防御系统也必须通过‘单行验证’。”他解释称,本次研究提出的基于单轮提示的攻击模型,意义在于展示了其作为轻量级安全评估体系的可行性。
该论文通过证明仅凭单轮输入就能轻易绕过现有大规模语言模型安全体系,强烈提示有必要对当前的安全评估方式和整体防御策略进行全面重构。Ha Junu本科生今后计划继续以人工智能安全领域为中心拓展研究工作。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。