“像自然对话般无卡顿语音识别”……OpenAI发布三款可打造语音助手的AI模型

by Lee Eunseo

Published 08 May.2026 10:15(KST)

OpenAI公开了面向开发者的3种语音模型，可用于打造能够实时对话和翻译的语音助手。

OpenAI 的实时语音 API 模型“GPT-Realtime-Translate”正在将德语和法语对话进行实时翻译。OpenAI供图

OpenAI于7日（当地时间）发布了语音应用程序编程接口（API）模型GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们分别是对话型、翻译型和文本转换型模型，均能对用户语音做出实时响应。OpenAI表示，这些模型不仅在速度和自然度上表现出色，还能够理解用户意图，把握语境，并以符合情境的方式作出回应。

GPT-Realtime-2是一款具备推理能力的语音模型，为实时语音交互而打造。它在专业术语和专有名词等领域理解度较高，并具备根据不同情境调整语气的特点。

GPT-Realtime-Translate可将70多种语言翻译成13种语言，构建多语言语音环境。由于能按照说话者的语速进行实时翻译，预计将对面向全球用户制作内容的平台十分有用。GPT-Realtime-Whisper则是语音转文本技术，可用于生成字幕或会议记录。

这三种模型均可在OpenAI的Realtime API中使用。GPT-Realtime-2的价格为每100万个音频输入标记32美元、每100万个输出标记64美元。GPT-Realtime-Translate和GPT-Realtime-Whisper的价格则分别为每分钟0.034美元和0.017美元。

必读新闻

“我们月薪也要破1000万了”创历史新高…“半导体效应”引爆大型电子部件企业绩效奖金

业内分析认为，借助此次新模型，企业引入语音代理的步伐将加快，以语音下达指令的语音交互界面也将加速普及。OpenAI表示，“我们在API中引入了三种音频模型，以便开发者能够开发出全新层级的语音应用”，并称“有望构建出反应更加自然、更加智能、并可实时运作的语音环境”。市场调研机构Grand View Research预测，全球语音代理市场规模将在2026年至2033年间以年均39%的速度增长，达到352.4亿美元（约52万亿韩元）。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。

“像自然对话般无卡顿语音识别”……OpenAI发布三款可打造语音助手的AI模型

必读新闻

不容错过的热点