서울시립대학교는 수학과 3학년에 재학 중인 하준우 학부생이 공동 제1저자로 참여한 논문 'One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs'가 자연어처리(NLP) 분야 세계 최고 권위 학술대회인 ACL 2025(Association for Computational Linguistics) 메인 트랙에 채택됐다"고 9일 밝혔다.

ACL은 전산언어학 및 자연어처리 분야에서 가장 권위 있는 국제 학술대회로, 전 세계 인공지능 연구자들이 가장 주목하는 행사다.

공식 발표는 오는 28일부터 30일까지 오스트리아 빈의 Austria Center Vienna에서 진행될 예정이다.

특히 이번 논문은 학부 3년 차 학생이 메인 트랙에 이름을 올린 이례적인 성과로 주목을 받았다.

해당 연구는 대규모 언어모델(LLM)의 다중 턴 공격을 단일 턴으로 압축하는 새로운 접근 방식을 제시하면서도, 95.9%의 공격 성공률과 최대 80%의 토큰 절감이라는 두 마리 토끼를 잡았다.

이는 LLM의 잠재적 보안 취약성을 체계적으로 규명하고, 보다 안전한 AI 개발을 위한 새로운 기준을 제시한 성과로 평가된다.

기존 연구에서는 공격 효율을 높이기 위해 멀티턴 프롬프트 전략이 주로 사용돼 왔으나, 하준우 학부생은 이를 단일 턴으로 압축해도 동일하거나 더 높은 공격 위협을 재현할 수 있음을 입증했다.

연구팀이 개발한 'M2S(Multi-turn-to-Single-turn)' 프레임워크는 △하이픈화 △숫자화 △파이썬화의 3단계 전략을 통해 복잡한 대화를 구조화된 단일 프롬프트로 변환하는 기술이다.

실험 결과, Mistral-7B 언어모델에서 95.9%의 공격 성공률을 기록해, GPT-4o 대비 17.5%포인트 향상된 수치를 보였으며, 70~80%의 토큰 절감 효과를 통해 동일 목표를 달성하는 데 필요한 계산 자원을 획기적으로 줄이는 데 성공했다.

하준우 학부생은 "수업과 병행하며 얻은 실전 연구 경험이었다"면서 "스타트업과 학교를 오가며 공동 제1저자인 김현준 연구자와 함께 AI 안전 문제를 정의하고 해결한 과정이 큰 자산이 됐다"고 밝혔다.

이어 "사용자가 한 줄만 입력해도 동일한 위협이 재현된다면, 방어 시스템 또한 '한 줄 검증'을 통과해야 한다"며 이번 연구가 제시한 단일 턴 프롬프트 기반 공격 모델이 경량 보안 평가 체계의 가능성을 제시한 데 의의가 있다고 설명했다.

이 논문은 단일 턴 입력만으로도 기존 LLM 보안 체계를 손쉽게 우회할 수 있음을 입증함으로써, 현행 보안 평가 방식과 방어 전략 전반의 재정비 필요성을 강하게 시사하고 있다. 하준우 학부생은 앞으로도 AI 보안 분야를 중심으로 연구를 확장해 나갈 계획이다.





