오픈AI가 실시간으로 대화하고 번역할 수 있는 음성 비서를 만들 수 있는 개발자용 음성 모델 3종을 공개했다.

오픈AI의 실시간 음성 API 모델 'GPT-리얼타임-트랜슬레이트'가 독일어와 프랑스어로 이뤄지는 대화를 실시간으로 번역하는 모습. 오픈AI.

오픈AI의 실시간 음성 API 모델 'GPT-리얼타임-트랜슬레이트'가 독일어와 프랑스어로 이뤄지는 대화를 실시간으로 번역하는 모습. 오픈AI.

AD
원본보기 아이콘

오픈AI는 7일(현지시간) 음성 애플리케이션 프로그래밍 인터페이스(API) 모델인 GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼를 공개했다. 각각 대화형, 번역형, 텍스트변환형 모델이다. 모두 실시간으로 사용자의 음성에 반응한다. 오픈AI는 속도나 자연스러움뿐 아니라 사용자의 의도를 이해하고, 문맥을 파악해 상황에 맞는 방식으로 응답한다고 설명했다.


GPT-리얼타임-2는 추론 능력을 갖춘 음성 모델로, 실시간 음성 상호작용을 위해 만들어졌다. 전문용어나 고유명사 등 도메인 이해도가 높고, 상황별로 어조를 조절할 수 있는 특징이 있다.

GPT-리얼타임-트렌슬레이트는 70개 이상의 언어를 13개의 언어로 번역하며 다국어 음성 환경을 만든다. 화자의 발화 속도에 맞춰 실시간으로 번역되므로 전 세계 사용자를 대상으로 콘텐츠를 만드는 플랫폼에 유용할 전망이다. GPT-리얼타임-위스퍼는 음성-텍스트 변환 기술로, 자막이나 회의록 생성을 도울 수 있다.


세 모델은 오픈AI의 리얼타임 API에서 사용할 수 있다. GPT-리얼타임-2는 오디오 입력 토큰 100만개당 32달러, 출력 토큰 100만 개당 64달러가 필요하다. GPT-리얼타임-트렌슬레이트와 GPT-리얼타임-위스퍼는 각각 분당 0.034달러, 0.017달러다.

AD

이번 모델을 계기로 기업의 음성 에이전트 도입이 빨라지며 말로 작업을 지시하는 음성 기반 인터페이스가 확산할 것이란 분석이 나온다. 오픈AI는 "개발자들이 새로운 차원의 음성 앱을 개발할 수 있도록 API에 세 가지 오디오 모델을 도입했다"며 "더 자연스럽고 지능적으로 반응하며 실시간으로 작동하는 음성환경을 구축할 수 있을 것"이라고 설명했다. 시장조사기관 그랜드 뷰 리서치는 전 세계 음성 에이전트 시장 규모는 2026년부터 2033년까지 연평균 39% 성장해 352억4000만달러(약 52조원)에 이를 것으로 전망했다.


이은서 기자 libro@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 보면 좋은 기사

새로보기

내 안의 인사이트 깨우기

취향저격 맞춤뉴스

많이 본 뉴스

당신을 위한 추천 콘텐츠

놓칠 수 없는 이슈