"끊김 없이 대화하듯 음성 인식"...오픈AI, 음성 비서 만들 수 있는 AI 모델 3종 공개

이은서 기자

입력 2026.05.08 10:15

00분 48초 소요

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

오픈AI가 실시간으로 대화하고 번역할 수 있는 음성 비서를 만들 수 있는 개발자용 음성 모델 3종을 공개했다.

오픈AI의 실시간 음성 API 모델 'GPT-리얼타임-트랜슬레이트'가 독일어와 프랑스어로 이뤄지는 대화를 실시간으로 번역하는 모습. 오픈AI.

오픈AI는 7일(현지시간) 음성 애플리케이션 프로그래밍 인터페이스(API) 모델인 GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼를 공개했다. 각각 대화형, 번역형, 텍스트변환형 모델이다. 모두 실시간으로 사용자의 음성에 반응한다. 오픈AI는 속도나 자연스러움뿐 아니라 사용자의 의도를 이해하고, 문맥을 파악해 상황에 맞는 방식으로 응답한다고 설명했다.

GPT-리얼타임-2는 추론 능력을 갖춘 음성 모델로, 실시간 음성 상호작용을 위해 만들어졌다. 전문용어나 고유명사 등 도메인 이해도가 높고, 상황별로 어조를 조절할 수 있는 특징이 있다.

GPT-리얼타임-트렌슬레이트는 70개 이상의 언어를 13개의 언어로 번역하며 다국어 음성 환경을 만든다. 화자의 발화 속도에 맞춰 실시간으로 번역되므로 전 세계 사용자를 대상으로 콘텐츠를 만드는 플랫폼에 유용할 전망이다. GPT-리얼타임-위스퍼는 음성-텍스트 변환 기술로, 자막이나 회의록 생성을 도울 수 있다.

세 모델은 오픈AI의 리얼타임 API에서 사용할 수 있다. GPT-리얼타임-2는 오디오 입력 토큰 100만개당 32달러, 출력 토큰 100만 개당 64달러가 필요하다. GPT-리얼타임-트렌슬레이트와 GPT-리얼타임-위스퍼는 각각 분당 0.034달러, 0.017달러다.

꼭 봐야 할 주요 뉴스

텀블러에 담아 입 대고 마셨는데…24시간 지난 후...

이번 모델을 계기로 기업의 음성 에이전트 도입이 빨라지며 말로 작업을 지시하는 음성 기반 인터페이스가 확산할 것이란 분석이 나온다. 오픈AI는 "개발자들이 새로운 차원의 음성 앱을 개발할 수 있도록 API에 세 가지 오디오 모델을 도입했다"며 "더 자연스럽고 지능적으로 반응하며 실시간으로 작동하는 음성환경을 구축할 수 있을 것"이라고 설명했다. 시장조사기관 그랜드 뷰 리서치는 전 세계 음성 에이전트 시장 규모는 2026년부터 2033년까지 연평균 39% 성장해 352억4000만달러(약 52조원)에 이를 것으로 전망했다.

이은서 기자 libro@asiae.co.kr

View English Article