连照片里的“笑点”都看得懂……体验GPT-4

by Choi Yuri

Published 16 Mar.2023 18:00(KST)

Updated 16 Mar.2023 18:01(KST)

open/close

看图写文、语气自由切换
比GPT-3.5更难糊弄…最新资讯仍有限

人工智能（AI）历史是否开启了新的篇章？当地时间本月15日，美国人工智能初创企业OpenAI公开了超大规模人工智能模型“GPT-4”。这距离2016年3月15日谷歌DeepMind的人工智能“AlphaGo”以4胜1负战胜九段棋手Lee Sedol，刚好过去7年。

GPT-4是一个与只擅长围棋这一特定任务的AlphaGo完全不同的“全能选手”。尤其在语言能力方面表现突出，还新增了GPT-3.5在4个月前发布时尚不具备的功能。GPT-4目前仅向每月收费20美元的ChatGPT Plus用户或微软（Microsoft）搜索引擎Bing用户开放体验。记者亲自体验了一下GPT-4究竟聪明到什么程度。

最大的变化在于它“长了眼睛”，能够看懂图片。与只能通过文字交流的GPT-3.5不同，GPT-4可以理解图像。图像输入功能目前仍处于测试阶段，普通用户暂时无法使用，但可以从OpenAI公开的视频和报告中一窥端倪。

例如，给它一张冰箱内部的照片，并提问“用这些食材可以做什么”，它会推荐菜单。看到牛奶、蓝莓、草莓、胡萝卜等食材后，它会提出制作“酸奶芭菲”的建议，并给出具体食谱。

包含图表或复杂公式的数学题，它也能轻松解答，这是GPT-3.5做不到的。比如给出一张1997年多个国家人均每日肉类消费量的柱状图，让它计算格鲁吉亚和西亚的数值总和，它也能给出正确答案。把整份PDF文件交给它，它可以只对需要的部分进行摘要，或计算出所需的数据。原本需要花费数小时通读、处理的数十页文档，它几秒钟就能完成，这一功能有望显著提升工作生产率。

用鸡块拼成的世界地图 [图片出处=OpenAI提供]

更令人惊讶的是它把握图像语境的能力，甚至能读懂被视为人类高阶思维领域的幽默“笑点”。记者向GPT-4展示了一张题为“从宇宙看地球是多么令人惊叹”的照片，并让它解释其中的网络迷因（meme，互联网流行内容）。这是一张用鸡块摆成世界地图的图片。GPT-4解释称：“这个迷因的幽默来自文字与图像出人意料的组合。文字让人期待看到地球的壮丽图像，但实际图像却只是普通而幼稚的画面。”

与GPT-3.5相比，它的语言能力也进一步提升。记者把前一天自己撰写的GPT-4介绍文章给它，并要求“用以字母‘M’开头的5个句子来概括”，它干净利落地完成了任务，用词恰当、语境自然。让它先把这篇文章翻译成意大利语，再翻译成乌克兰语，它也同样轻松完成。

它还能自如调整语气。记者让它为被裁员工撰写一封通知邮件，它在邮件中以“首先感谢您所付出的努力”开头。当记者要求把这封邮件改写得更幽默时，它又写出题为“是时候从工作的过山车上下来啦”的邮件，并以“您喜欢过山车吗？”开启正文。

与只擅长英语的GPT-3.5不同，它的韩语水平也很高，甚至给人一种“玩弄语言”的感觉。OpenAI表示，GPT-4在用于评估语言模型性能的韩语考试中得分为77分，而GPT-3.5在英语考试中的得分为70.1分。简单对比可知，GPT-4的韩语能力已超过GPT-3.5的英语能力。

变得更聪明的同时，它也更难被“忽悠”了。当记者向GPT-4询问在GPT-3.5版本中曾流行的迷因“世宗大王把Mac Pro扔出去事件”等内容时，它回答称这在历史上并不存在。GPT-3.5此前则会自信地给出错误答案，声称这是“世宗大王在撰写《训民正音》初稿时，因对负责官员发怒而把Mac Pro扔出去的事件”。当记者询问独岛（竹岛）属于谁的领土、以及如何看待韩国自行拥核问题时，它回避了可能引发争议的回答，仅对支持与反对的观点进行了归纳总结。

必读新闻

连补贴都给了却说“不能上市”全面受阻…闪光“韩技术”终究流向海外

不过，它在最新信息方面依然较为薄弱。当记者让它解释SM娱乐公司的经营权纷争问题时，它表示缺乏具体信息。原因在于，GPT-4与3.5一样，都是基于截至2021年9月之前的数据进行回答。在需要经过多步检索才能找到答案的情况下，它的能力也依然有限。比如记者询问“2020年10月成立的韩国人工智能初创公司Upstage的人工智能工程师是谁”时，它没能找到答案。虽然通过社交媒体服务（SNS）LinkedIn等平台可以查到相关信息，但它似乎无法自由访问LinkedIn。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。