OpenAI公开了面向开发者的3种语音模型,可用于打造能够实时对话和翻译的语音助手。
OpenAI于7日(当地时间)发布了语音应用程序编程接口(API)模型GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们分别是对话型、翻译型和文本转换型模型,均能对用户语音做出实时响应。OpenAI表示,这些模型不仅在速度和自然度上表现出色,还能够理解用户意图,把握语境,并以符合情境的方式作出回应。
GPT-Realtime-2是一款具备推理能力的语音模型,为实时语音交互而打造。它在专业术语和专有名词等领域理解度较高,并具备根据不同情境调整语气的特点。
GPT-Realtime-Translate可将70多种语言翻译成13种语言,构建多语言语音环境。由于能按照说话者的语速进行实时翻译,预计将对面向全球用户制作内容的平台十分有用。GPT-Realtime-Whisper则是语音转文本技术,可用于生成字幕或会议记录。
这三种模型均可在OpenAI的Realtime API中使用。GPT-Realtime-2的价格为每100万个音频输入标记32美元、每100万个输出标记64美元。GPT-Realtime-Translate和GPT-Realtime-Whisper的价格则分别为每分钟0.034美元和0.017美元。
业内分析认为,借助此次新模型,企业引入语音代理的步伐将加快,以语音下达指令的语音交互界面也将加速普及。OpenAI表示,“我们在API中引入了三种音频模型,以便开发者能够开发出全新层级的语音应用”,并称“有望构建出反应更加自然、更加智能、并可实时运作的语音环境”。市场调研机构Grand View Research预测,全球语音代理市场规模将在2026年至2033年间以年均39%的速度增长,达到352.4亿美元(约52万亿韩元)。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。