ChatGPT惊人进化：现在能看、能听、还能说

by Koo Nari

Published 26 Sep.2023 13:45(KST)

语音与用户问答对话
图像识别提供情景化解决方案

生成式人工智能（AI）ChatGPT 已经进化到可以与人进行语音对话，并通过“看”图像来回答问题的阶段。

25日（当地时间），OpenAI 表示，将在不久后为 ChatGPT 提供“能看、能听、会说”的新功能。

“听和说的功能”是指用户可以通过语音进行提问并获得语音回答。过去只能通过文本提示与其对话，如今将可以进行语音对话。

这一功能与现有的亚马逊 AI 助手 Alexa、苹果的 Siri、谷歌助手（Google Assistant）等类似。

不过，与这些主要侧重于执行用户语音指令的 AI 助手不同，ChatGPT 可以进行真正的对话。

当用户用语音提问时，ChatGPT 会先将语音转换为文本，传递给大规模语言模型（LLM），再将获得的回答转换成语音说出来。

ChatGPT 的语音预计将提供 5 种类型，用户可以从中选择一种使用。

OpenAI 还表示，今后将与全球最大的音源流媒体服务 Spotify 合作，研究在保持原有声音的同时，将其翻译成其他语言的方案。

OpenAI 称，将在 2 周内向 ChatGPT 付费订阅用户提供这一功能，之后再向所有用户开放。

语音功能将仅限于在 iOS 和安卓应用中使用。

OpenAI公开的ChatGPT图像识别功能实现画面。OpenAI官网截图提供

“看并回答的功能”是指用户上传图像后，基于该图像提出问题，ChatGPT 通过“看图”来作答。

例如，用户可以上传一张粉色太阳镜的照片，请它推荐与之搭配的服装；也可以上传一道数学题的照片，请它给出解题过程。

在 OpenAI 公开的图像识别功能演示中，一名用户上传了自行车图片并询问如何降低座椅高度，ChatGPT 给出了通常调节座椅高度的方法。

随后，当用户在自行车座椅固定装置周围画圈并再次请求帮助时，ChatGPT 识别出了螺栓类型，并告知需要使用内六角扳手。

它还可以通过查看使用说明书和工具箱的照片，确认其中是否有合适尺寸的扳手。

这一功能预计将在未来几周内向付费订阅用户和企业用户提供。图像处理功能可在所有平台上使用。

OpenAI 表示：“我们的目标是构建安全且有益的通用人工智能（AGI），我们相信，逐步提供新工具，在改进功能的同时降低风险，可以帮助所有人做好准备，在未来使用更强大的系统。”

不过，专家们对本次语音识别更新中，AI 生成的合成语音可能被用于犯罪表示担忧。

合成语音虽然可以为用户提供更自然的体验，但也可能催生更加逼真的深度伪造（利用 AI 让内容看起来像真的技术）。

因此，研究人员已经开始研究深度伪造如何被用于渗透网络安全系统。

OpenAI 就此强调称：“ChatGPT 的合成语音并非从陌生人处收集，而是通过我们直接合作的配音演员制作的。”

不过，OpenAI 并未公开将如何使用 ChatGPT 用户的语音输入，以及公司将如何保护相关数据。

该公司服务条款中规定，在相关法律允许的范围内，消费者拥有其输入内容的所有权。

本报道由人工智能(AI)翻译技术生成。