container
Dim

用相机拍下樱花…AI:“一周后将盛开”

人工智能生成视频
编者注人工智能(AI)能否取代我们的工作?这曾是只会出现在电影中的遥远未来故事,如今随着AI代理(AI Agent)的出现,正逐渐成为现实。AI代理的特点在于,它能代替用户自行判断、制定计划并自动完成任务。我们亲自体验了企业接连推出的AI代理服务,并分析在现实生活中能多大程度上方便我们的日常。

"

现在正处于花苞刚刚绽开的初期开花阶段。

此时树上已经结满了粉色花苞,

通常在开花后一周左右就会盛放,

因此如果在4月7日至12日期间来到汝矣岛,

就能看到花朵华丽盛开的景象。

"


用相机拍下樱花…AI:“一周后将盛开” 원본보기 아이콘

2日下午,在樱花刚刚绽放的首尔永登浦区汝矣岛汉江公园前打开了谷歌。

用手机后置摄像头拍下樱花树后,

询问现在花开到什么程度,

以及大概什么时候再来才能好好赏花。

它还能把附近山茱萸的开花情况拿来对比,告知樱花大概会晚开多久。

与其说是在用手机搜索,

不如说像是身边有位看不见脸的聪明秘书,把我好奇的一切都告诉我。



谷歌于上月27日在韩国推出了SearchLive

它可以交替使用语音和摄像头,

实现实时双向对话式搜索。

该服务去年在美国首次亮相,此次扩展至韩国。

谷歌在2024年利用生成式AI

推出了可对搜索结果关键信息进行总结的“AI概要”,

去年则上线了强化推理与多模态功能的“AI模式”,

这一次则推出了一项

能够像与用户身处同一地点的秘书那样感知情境并给出回答的服务。


用摄像头把握情境……读取语境后作答
SearchLive 介绍文。谷歌韩国官网

SearchLive 介绍文。谷歌韩国官网

원본보기 아이콘

这场变化的核心在于,

通过利用视频、语音等非结构化数据,

让复杂搜索也成为可能的多模态功能。

此次SearchLive的关键在于,

“基于情境的对话”扩展到了语音与摄像头识别这一点。

与以往用户必须在搜索框输入关键词以获取信息不同,

现在可以仅以问答形式获取符合当前情境的信息。



无需手动输入搜索词,只需像聊天一样发问,

即使在移动途中也能方便使用,这是SearchLive的一大优势。

用户还可以点击作为回答依据的链接,

查看更为深入的信息。

基于情绪语境的提问同样可行。

例如可以发问:“猫又不会付钱,为什么还能这么理直气壮地到处走?”

“请推荐几首适合今天白天天气的嘻哈音乐”等。

在难以用语言或文字说明的情境下,

只要打开摄像头,SearchLive

就会基于视觉语境来回答问题。


在视频上叠加语音提问……提供综合洞见
用相机拍下樱花…AI:“一周后将盛开” 원본보기 아이콘

搜索质量也有所提升。

因为可以在实时视频画面上叠加语音提问,

用户得以更细致地传达自己想要的语境。

给人的感觉是,它不再只提供单一信息,而是给出综合性的洞见。


实际体验中,当用摄像头拍摄山核桃费南雪时,

"这是一款铺满山核桃的甜点,

在甜味之上加入山核桃,

使口感更加香脆",

"“费南雪”在法语中意为金融家,

因为是用金条形模具烤制而得名"等说明随即出现。

除此之外,还可以询问家中植物的由来、生长环境和健康状况等,

并根据“单人家庭”这一情境和偏好的品牌来为用户寻找合适产品。


说步行2~3分钟可达的超市,实际要走10分钟

不过,并非所有搜索结果

都基于最新信息或准确的研究、报道。

查看附在回答后的信息来源可以发现,

主要来自Namuwiki、Facebook、Tistory等网站,

共享的信息集中在2023年至2024年。

针对基于位置的提问,有时也会给出不准确的回答。

例如,在首尔中区市厅附近,

询问“从这里走到光化门站要多久”,

它却将出发点设在忠清南道公州市,令人哭笑不得。

再比如问“步行到10分钟路程外的超市要多久”,

它有时会回答说2~3分钟内就能到达。


用相机拍下樱花…AI:“一周后将盛开” 원본보기 아이콘

想将语音形式提供的搜索结果以文字脚本查看,也并不容易。

对话结束后本想以文本形式确认内容,

但部分内容却显示“发生问题,无法生成人工智能回答”,

因而无法获取更多补充信息。

top버튼