语音与用户问答对话
图像识别提供情景化解决方案
生成式人工智能(AI)ChatGPT 已经进化到可以与人进行语音对话,并通过“看”图像来回答问题的阶段。
ChatGPT 与其他语音 AI 助手不同之处在于“可对话”
25日(当地时间),OpenAI 表示,将在不久后为 ChatGPT 提供“能看、能听、会说”的新功能。
“听和说的功能”是指用户可以通过语音进行提问并获得语音回答。过去只能通过文本提示与其对话,如今将可以进行语音对话。
这一功能与现有的亚马逊 AI 助手 Alexa、苹果的 Siri、谷歌助手(Google Assistant)等类似。
不过,与这些主要侧重于执行用户语音指令的 AI 助手不同,ChatGPT 可以进行真正的对话。
当用户用语音提问时,ChatGPT 会先将语音转换为文本,传递给大规模语言模型(LLM),再将获得的回答转换成语音说出来。
ChatGPT 的语音预计将提供 5 种类型,用户可以从中选择一种使用。
OpenAI 还表示,今后将与全球最大的音源流媒体服务 Spotify 合作,研究在保持原有声音的同时,将其翻译成其他语言的方案。
OpenAI 称,将在 2 周内向 ChatGPT 付费订阅用户提供这一功能,之后再向所有用户开放。
语音功能将仅限于在 iOS 和安卓应用中使用。
识别图像并回答用户问题
“看并回答的功能”是指用户上传图像后,基于该图像提出问题,ChatGPT 通过“看图”来作答。
例如,用户可以上传一张粉色太阳镜的照片,请它推荐与之搭配的服装;也可以上传一道数学题的照片,请它给出解题过程。
在 OpenAI 公开的图像识别功能演示中,一名用户上传了自行车图片并询问如何降低座椅高度,ChatGPT 给出了通常调节座椅高度的方法。
随后,当用户在自行车座椅固定装置周围画圈并再次请求帮助时,ChatGPT 识别出了螺栓类型,并告知需要使用内六角扳手。
它还可以通过查看使用说明书和工具箱的照片,确认其中是否有合适尺寸的扳手。
这一功能预计将在未来几周内向付费订阅用户和企业用户提供。图像处理功能可在所有平台上使用。
OpenAI 表示:“我们的目标是构建安全且有益的通用人工智能(AGI),我们相信,逐步提供新工具,在改进功能的同时降低风险,可以帮助所有人做好准备,在未来使用更强大的系统。”
“合成语音听起来虽自然,却可能被用于犯罪”……专家担忧
不过,专家们对本次语音识别更新中,AI 生成的合成语音可能被用于犯罪表示担忧。
合成语音虽然可以为用户提供更自然的体验,但也可能催生更加逼真的深度伪造(利用 AI 让内容看起来像真的技术)。
因此,研究人员已经开始研究深度伪造如何被用于渗透网络安全系统。
OpenAI 就此强调称:“ChatGPT 的合成语音并非从陌生人处收集,而是通过我们直接合作的配音演员制作的。”
不过,OpenAI 并未公开将如何使用 ChatGPT 用户的语音输入,以及公司将如何保护相关数据。
该公司服务条款中规定,在相关法律允许的范围内,消费者拥有其输入内容的所有权。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。