视听感知如同人类 还能自然对话
强大AI模型掀起市场抢占战
有望大幅提升便利性并充当智能助手

OpenAI与谷歌之间围绕生成式人工智能(AI)技术的战争已全面打响。两家公司接连推出功能更强大的升级版AI模型,展开争夺全球主导权的竞争。此前主要通过文本来执行AI功能,如今则预计将在学习了图像、音频、视频等多种数据的多模态(multi modal)技术上展开对决。

当地时间13日,在美国加利福尼亚州山景城的Shoreline圆形剧场举行的“谷歌年度开发者大会(I/O)”现场。 联合新闻供图

当地时间13日,在美国加利福尼亚州山景城的Shoreline圆形剧场举行的“谷歌年度开发者大会(I/O)”现场。 联合新闻供图

View original image
与谷歌应用形成协同效应……还发布通用人工智能“阿斯特拉”

谷歌将自家搜索引擎搭载生成式AI“Gemini”,备受瞩目。谷歌于本月14日(当地时间)在美国加利福尼亚州山景城举行的年度开发者大会上,通过Gemini发布了让AI的未来成为现实的愿景。首先亮相的是“AI概要”功能,可快速对搜索结果进行总结并提供相关链接。用户可以以对话形式进行搜索,不仅可以用照片,还能通过视频进行搜索。搭载Gemini的新搜索功能将以美国为起点,在数月内向其他国家推广。


基于AI语音模型的通用人工智能(AGI)项目“Astra”也同步公开。Astra使AI能够像人一样看和听,并通过语音对话,充当用户的个人助理。在演示视频中,用户用智能手机摄像头展示周围环境并询问眼镜在哪里,Astra随即给出位置提示。把眼镜挪走后再问“刚才这里放着什么东西”,它也能回答“眼镜”。与谷歌地图结合后将产生更大协同效应,因为它可以识别用户当前位置并通过语音告知。有观点认为,Astra不仅能在智能手机和电脑上实现,还有望在智能眼镜等其他IT设备上落地。


谷歌还展示了通往Astra之前一阶段的“Gemini Live”。在当天的演示视频中,用户用摄像头对准鞋子表示要退货,Gemini随即查找鞋子的购买记录,并向购物网站提交退货申请,还在谷歌日历中标注了上门取件的日程。预计它也能为求职面试准备、演讲彩排等提供帮助。谷歌计划在今年内推出Gemini Live,并陆续增加实现Astra所需的功能。谷歌能否在利用定制化、个性化AI功能的同时继续维持广告收入,仍是一个课题。

Sam Altman OpenAI首席执行官 [图片来源=联合通讯社提供]

Sam Altman OpenAI首席执行官 [图片来源=联合通讯社提供]

View original image
如同真人的GPT-4o “堪称一场革命”

OpenAI在谷歌活动前一天突然发布了GPT-4o(读作“포오”)。这一语音AI助手与Astra类似,能够与用户进行实时语音对话,通过视听信息进行推理并回答问题。GPT-4o可识别包括韩语在内的50种语言,还具备展示数学题目后讲解解题过程的功能。


韩国本土初创企业代表在GPT-4o发布后难掩惊讶之情。大数据科技企业In라이플代表Han Kyunghoon表示:“GPT-4o实现了高水平的实时对话,将在各类商业、教育、金融等社会诸多领域产生巨大影响”,“将在AI技术开发和应用方面带来一个变革期”。FortyTwoMaru代表Kim Donghwan则称:“随着多模态技术真正开始应用,出现了堪比革命的变化”,“这将成为AI深度融入日常生活的里程碑”。



不过,现在判断两款模型中哪一个更具优势还为时尚早。《麻省理工科技评论》指出:“在没有亲自体验正式版本之前,很难说哪一个更好”,“演示视频中展示的内容有可能是事先练习过的任务,因此在正式发布后才会迎来真正的考验”。未来还需关注的是,苹果iPhone会搭载两者中哪一种生成式AI模型,以及它们在多大程度上减少了AI提供虚假信息的“幻觉”现象。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点