“现在是多模态时代” OpenAI与谷歌推出语音AI助手

by Kim Bokyung

Published 16 May.2024 10:01(KST)

Updated 16 May.2024 14:14(KST)

open/close

视听感知如同人类还能自然对话
强大AI模型掀起市场抢占战
有望大幅提升便利性并充当智能助手

OpenAI与谷歌之间围绕生成式人工智能（AI）技术的战争已全面打响。两家公司接连推出功能更强大的升级版AI模型，展开争夺全球主导权的竞争。此前主要通过文本来执行AI功能，如今则预计将在学习了图像、音频、视频等多种数据的多模态（multi modal）技术上展开对决。

当地时间13日，在美国加利福尼亚州山景城的Shoreline圆形剧场举行的“谷歌年度开发者大会（I/O）”现场。联合新闻供图

与谷歌应用形成协同效应……还发布通用人工智能“阿斯特拉”

谷歌将自家搜索引擎搭载生成式AI“Gemini”，备受瞩目。谷歌于本月14日（当地时间）在美国加利福尼亚州山景城举行的年度开发者大会上，通过Gemini发布了让AI的未来成为现实的愿景。首先亮相的是“AI概要”功能，可快速对搜索结果进行总结并提供相关链接。用户可以以对话形式进行搜索，不仅可以用照片，还能通过视频进行搜索。搭载Gemini的新搜索功能将以美国为起点，在数月内向其他国家推广。

基于AI语音模型的通用人工智能（AGI）项目“Astra”也同步公开。Astra使AI能够像人一样看和听，并通过语音对话，充当用户的个人助理。在演示视频中，用户用智能手机摄像头展示周围环境并询问眼镜在哪里，Astra随即给出位置提示。把眼镜挪走后再问“刚才这里放着什么东西”，它也能回答“眼镜”。与谷歌地图结合后将产生更大协同效应，因为它可以识别用户当前位置并通过语音告知。有观点认为，Astra不仅能在智能手机和电脑上实现，还有望在智能眼镜等其他IT设备上落地。

谷歌还展示了通往Astra之前一阶段的“Gemini Live”。在当天的演示视频中，用户用摄像头对准鞋子表示要退货，Gemini随即查找鞋子的购买记录，并向购物网站提交退货申请，还在谷歌日历中标注了上门取件的日程。预计它也能为求职面试准备、演讲彩排等提供帮助。谷歌计划在今年内推出Gemini Live，并陆续增加实现Astra所需的功能。谷歌能否在利用定制化、个性化AI功能的同时继续维持广告收入，仍是一个课题。

Sam Altman OpenAI首席执行官 [图片来源=联合通讯社提供]

如同真人的GPT-4o “堪称一场革命”

OpenAI在谷歌活动前一天突然发布了GPT-4o（读作“포오”）。这一语音AI助手与Astra类似，能够与用户进行实时语音对话，通过视听信息进行推理并回答问题。GPT-4o可识别包括韩语在内的50种语言，还具备展示数学题目后讲解解题过程的功能。

韩国本土初创企业代表在GPT-4o发布后难掩惊讶之情。大数据科技企业In라이플代表Han Kyunghoon表示：“GPT-4o实现了高水平的实时对话，将在各类商业、教育、金融等社会诸多领域产生巨大影响”，“将在AI技术开发和应用方面带来一个变革期”。FortyTwoMaru代表Kim Donghwan则称：“随着多模态技术真正开始应用，出现了堪比革命的变化”，“这将成为AI深度融入日常生活的里程碑”。

必读新闻

“月薪150万不如去美国年入5亿” 首尔大·KAIST人才纷纷收拾行囊 [科学家正在消失]①

不过，现在判断两款模型中哪一个更具优势还为时尚早。《麻省理工科技评论》指出：“在没有亲自体验正式版本之前，很难说哪一个更好”，“演示视频中展示的内容有可能是事先练习过的任务，因此在正式发布后才会迎来真正的考验”。未来还需关注的是，苹果iPhone会搭载两者中哪一种生成式AI模型，以及它们在多大程度上减少了AI提供虚假信息的“幻觉”现象。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。