编者注人工智能(AI)能否取代我们的工作?这曾是只会出现在电影中的遥远未来故事,如今随着AI代理(AI Agent)的出现,正逐渐成为现实。AI代理的特点在于,它能代替用户自行判断、制定计划并自动完成任务。我们亲自体验了企业接连推出的AI代理服务,并分析在现实生活中能多大程度上方便我们的日常。
"
现在正处于花苞刚刚绽开的初期开花阶段。
此时树上已经结满了粉色花苞,
通常在开花后一周左右就会盛放,
因此如果在4月7日至12日期间来到汝矣岛,
就能看到花朵华丽盛开的景象。
"
2日下午,在樱花刚刚绽放的首尔永登浦区汝矣岛汉江公园前打开了谷歌。
用手机后置摄像头拍下樱花树后,
询问现在花开到什么程度,
以及大概什么时候再来才能好好赏花。
它还能把附近山茱萸的开花情况拿来对比,告知樱花大概会晚开多久。
与其说是在用手机搜索,
不如说像是身边有位看不见脸的聪明秘书,把我好奇的一切都告诉我。
谷歌于上月27日在韩国推出了SearchLive。
它可以交替使用语音和摄像头,
实现实时双向对话式搜索。
该服务去年在美国首次亮相,此次扩展至韩国。
谷歌在2024年利用生成式AI
推出了可对搜索结果关键信息进行总结的“AI概要”,
去年则上线了强化推理与多模态功能的“AI模式”,
这一次则推出了一项
能够像与用户身处同一地点的秘书那样感知情境并给出回答的服务。
用摄像头把握情境……读取语境后作答
这场变化的核心在于,
通过利用视频、语音等非结构化数据,
让复杂搜索也成为可能的多模态功能。
此次SearchLive的关键在于,
“基于情境的对话”扩展到了语音与摄像头识别这一点。
与以往用户必须在搜索框输入关键词以获取信息不同,
现在可以仅以问答形式获取符合当前情境的信息。
无需手动输入搜索词,只需像聊天一样发问,
即使在移动途中也能方便使用,这是SearchLive的一大优势。
用户还可以点击作为回答依据的链接,
查看更为深入的信息。
基于情绪语境的提问同样可行。
例如可以发问:“猫又不会付钱,为什么还能这么理直气壮地到处走?”
“请推荐几首适合今天白天天气的嘻哈音乐”等。
在难以用语言或文字说明的情境下,
只要打开摄像头,SearchLive
就会基于视觉语境来回答问题。
在视频上叠加语音提问……提供综合洞见
搜索质量也有所提升。
因为可以在实时视频画面上叠加语音提问,
用户得以更细致地传达自己想要的语境。
给人的感觉是,它不再只提供单一信息,而是给出综合性的洞见。
实际体验中,当用摄像头拍摄山核桃费南雪时,
"这是一款铺满山核桃的甜点,
在甜味之上加入山核桃,
使口感更加香脆",
"“费南雪”在法语中意为金融家,
因为是用金条形模具烤制而得名"等说明随即出现。
除此之外,还可以询问家中植物的由来、生长环境和健康状况等,
并根据“单人家庭”这一情境和偏好的品牌来为用户寻找合适产品。
说步行2~3分钟可达的超市,实际要走10分钟
不过,并非所有搜索结果
都基于最新信息或准确的研究、报道。
查看附在回答后的信息来源可以发现,
主要来自Namuwiki、Facebook、Tistory等网站,
共享的信息集中在2023年至2024年。
针对基于位置的提问,有时也会给出不准确的回答。
例如,在首尔中区市厅附近,
询问“从这里走到光化门站要多久”,
它却将出发点设在忠清南道公州市,令人哭笑不得。
再比如问“步行到10分钟路程外的超市要多久”,
它有时会回答说2~3分钟内就能到达。
想将语音形式提供的搜索结果以文字脚本查看,也并不容易。
对话结束后本想以文本形式确认内容,
但部分内容却显示“发生问题,无法生成人工智能回答”,
因而无法获取更多补充信息。