数学解题写出“公式正确但计算失误”……AI理解更精细了

谷歌于6日(当地时间)发布了下一代人工智能(AI)大规模语言模型(LLM)“Gemini”。该模型不仅能够解答数学题,还可以分析错误的推理过程。业界评价认为,其最高版本不仅超越了由OpenAI开发的GPT-4,也是迄今为止在各类AI模型中性能最接近人类、表现最为出色的模型之一。


此次谷歌推出的Gemini 1.0与聊天机器人ChatGPT所使用的LLM“GPT”同属一类AI模型,分为Ultra、Pro、Nano三种规模进行优化。这是一款能够同时识别并理解文本、图像、音频等内容,并具备编程能力的“多模态AI”。它不仅可以解答数学题,还能指出并分析错误的推理过程。打造出AlphaGo的谷歌DeepMind主导了本次研发。

图片由AFP韩联社提供

图片由AFP韩联社提供

View original image

三种版本中,中等规模、面向通用用途的“Gemini Pro”自当天起被搭载到谷歌的AI聊天机器人服务“Bard”中,可视为ChatGPT的强劲对手。应用了Gemini Pro的Bard目前以英语形式在170多个国家和地区提供服务,今后服务地区和支持语言将逐步扩大。此外,无需云端连接、可在终端设备本身即时调用AI的Gemini Nano,将被搭载在谷歌今年10月发布的最新智能手机“Pixel 8 Pro”上。适合处理规模最大、任务最复杂工作的Gemini Ultra,则将于明年年初以“Bard Advanced”之名投入使用。


尤其是Gemini Ultra,被评价为迄今发布的所有LLM中最强大的模型。Gemini Ultra在“多任务大规模语言理解测试(MMLU)”中取得了90.04分。该测试通过综合利用数学、物理学、历史、法律、医学、伦理等57个学科领域,对模型的知识与问题解决能力进行评估。这一成绩高于专家(人类,89.3分)和GPT-4(86.4分)。谷歌方面表示:“这是首个在该测试中超过人类专家得分的模型”,“尤其在数学和物理推理方面表现突出。”在32项学术基准测试中,Gemini Ultra在30项指标上超越了GPT-4。

谷歌发布AI语言模型“Gemini”:称“GPT-4不如人类表现出色” View original image

从谷歌前一天面向当地媒体等提前公开的演示视频来看,可以看到Gemini在事物识别和判断力方面已接近人类。有人用笔在纸上画一只鸭子,Gemini立即对这一过程进行了逐步讲解。当把鸭子身体涂成蓝色时,它介绍说:“虽然少见,但确实存在蓝色的鸭子。”在展示一只鸭子玩偶并询问材质时,它回答称:“可能是橡胶,也可能是塑料。如果捏的时候会发出吱吱声,那就是橡胶。”此外,当演示画面中出现类似电影《黑客帝国》中人物躲避子弹的场景时,它解释说:“这是电影《黑客帝国》中著名的一幕。”


图片由AP韩联社提供

图片由AP韩联社提供

View original image

在数学和物理方面的理解能力也更加精细。当被问到车头为方形的车辆和车头为三角形的车辆哪一辆更快时,它给出的答案是:“应用空气动力学原理的三角形车会更快。”在给出一道数学题及其错误解题过程后,它会指出“公式是对的,但计算出现了失误”等问题。不仅会详细标出解题过程中出错的具体环节,还会提供与错误部分相关的个性化练习题。



谷歌首席执行官(CEO)Sundar Pichai表示:“自从谷歌宣布向‘AI优先’企业转型已经过去8年,我们取得了令人瞩目的成果,但这仍只是开始”,“‘Gemini 1.0’是今年年初谷歌DeepMind成立时所描绘愿景的首次落地。这个新时代的模型,是谷歌迄今为止开展的最大规模科学与工程项目之一。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点