"끊김 없이 대화하듯 음성 인식"...오픈AI, 음성 비서 만들 수 있는 AI 모델 3종 공개
오픈AI가 실시간으로 대화하고 번역할 수 있는 음성 비서를 만들 수 있는 개발자용 음성 모델 3종을 공개했다.
오픈AI는 7일(현지시간) 음성 애플리케이션 프로그래밍 인터페이스(API) 모델인 GPT-리얼타임-2, GPT-리얼타임-트랜슬레이트, GPT-리얼타임-위스퍼를 공개했다. 각각 대화형, 번역형, 텍스트변환형 모델이다. 모두 실시간으로 사용자의 음성에 반응한다. 오픈AI는 속도나 자연스러움뿐 아니라 사용자의 의도를 이해하고, 문맥을 파악해 상황에 맞는 방식으로 응답한다고 설명했다.
GPT-리얼타임-2는 추론 능력을 갖춘 음성 모델로, 실시간 음성 상호작용을 위해 만들어졌다. 전문용어나 고유명사 등 도메인 이해도가 높고, 상황별로 어조를 조절할 수 있는 특징이 있다.
GPT-리얼타임-트렌슬레이트는 70개 이상의 언어를 13개의 언어로 번역하며 다국어 음성 환경을 만든다. 화자의 발화 속도에 맞춰 실시간으로 번역되므로 전 세계 사용자를 대상으로 콘텐츠를 만드는 플랫폼에 유용할 전망이다. GPT-리얼타임-위스퍼는 음성-텍스트 변환 기술로, 자막이나 회의록 생성을 도울 수 있다.
세 모델은 오픈AI의 리얼타임 API에서 사용할 수 있다. GPT-리얼타임-2는 오디오 입력 토큰 100만개당 32달러, 출력 토큰 100만 개당 64달러가 필요하다. GPT-리얼타임-트렌슬레이트와 GPT-리얼타임-위스퍼는 각각 분당 0.034달러, 0.017달러다.
꼭 봐야 할 주요 뉴스
텀블러에 담아 입 대고 마셨는데…24시간 지난 후...
이번 모델을 계기로 기업의 음성 에이전트 도입이 빨라지며 말로 작업을 지시하는 음성 기반 인터페이스가 확산할 것이란 분석이 나온다. 오픈AI는 "개발자들이 새로운 차원의 음성 앱을 개발할 수 있도록 API에 세 가지 오디오 모델을 도입했다"며 "더 자연스럽고 지능적으로 반응하며 실시간으로 작동하는 음성환경을 구축할 수 있을 것"이라고 설명했다. 시장조사기관 그랜드 뷰 리서치는 전 세계 음성 에이전트 시장 규모는 2026년부터 2033년까지 연평균 39% 성장해 352억4000만달러(약 52조원)에 이를 것으로 전망했다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>