降低幻觉提升回答多样性
数学、科学、编程基准测试创最高纪录
在韩语基准测试中也超越专家水平

OpenAI 的下一代旗舰模型 GPT-5 正式发布。GPT-5 相比以往再进一步,是目前最智能、最快速、最实用的前沿模型。照片由 OpenAI 提供

OpenAI 的下一代旗舰模型 GPT-5 正式发布。GPT-5 相比以往再进一步,是目前最智能、最快速、最实用的前沿模型。照片由 OpenAI 提供

View original image

“当被问到土星有多少条光环时,GPT-4o用了6.5秒,GPT-5只用了3.1秒。”


这是拥有2130万订阅者的英国科技类油管博主“Mrwhosetheboss”亲自对比 GPT-4o 与 GPT-5 得出的结果。在关于 iPhone 发布机型数量(11.2秒 vs 8.3秒)、宝可梦属性组合数量(11秒 vs 5秒)等简短而简单的问题上,GPT-5 的响应速度比上一代快了约30%至55%。他表示:“在复杂编码或游戏生成这类需要深度推理的任务上,速度可能会慢一点,但结果质量明显提高”,“在日常信息查询方面,速度确实更快了。”


据信息技术业界11日消息,OpenAI 于本月7日(当地时间)发布了聊天机器人 ChatGPT 的最新基础模型“GPT-5”。这一模型在原有对话型“GPT-4o”和推理特化模型“o3”的基础上进一步升级,并整合为一个统一模型。今后在使用 ChatGPT 时,无需再单独选择模型。


OpenAI 首席执行官(CEO)Sam Altman 在发布前一天表示:“GPT-5 是一次巨大飞跃,也是迈向通用人工智能(AGI)的重要进展”,“如果说与 GPT-3 对话像是在和高中生聊天,与 GPT-4 对话像是在和大学生聊天,那么 GPT-5 则像是在和拥有博士学位的专家对话。”他还补充称:“在用过 GPT-5 之后再回到 GPT-4,真的非常困难。这种感觉就像 iPhone 从低分辨率屏幕升级到视网膜显示屏之后,人们再也不想回到过去一样。”


OpenAI 表示,GPT-5 在数学、科学、编码等主要评测基准上都创下了最先进水平(SOTA),并降低了“幻觉”(hallucination)的发生率。其回答速度加快,对同一问题还能给出多样化的回答,从而拓宽用户的选择空间。


OpenAI 已向所有 ChatGPT 用户开放 GPT-5。免费用户可以使用 GPT-5 以及轻量版“GPT-5 mini”,每5小时可发送10条消息。付费的 Plus 套餐用户每3小时可使用 GPT-5 发送最多80条消息,超出限额后将自动切换为轻量版。Pro 套餐则可在没有消息数量限制的情况下自由使用 GPT-5 和深度推理模式“Thinking”。团队版套餐同样提供与 Pro 相同的无限制权益,并将从下周起默认采用 GPT-5 作为基础模型。


值得一提的是,GPT-5 在韩国语评测基准 KMMLU 上也取得了最高成绩(SOTA)。OpenAI 解释称:“这是在 GPT-4o 开始的韩文处理技术基础上进一步改进的结果,在不仅评估现代韩语,还考察文化与历史知识的测试中取得了这一成绩。”


从速度和性能指标来看,提升幅度十分明显,但专家认为,本次更新的核心在于其他方面。高丽大学人工智能研究所教授 Choi Byungho 表示:“与其说 GPT-5 只是单纯提高性能指标,不如说是强化了由人工智能自动选择、组合不同版本以及推理型、非推理型模型的‘路由’结构”,“不过,这一路由机制尚未做到完全稳定,用户的体感性能在一定程度上可能会受到限制。”


Choi 教授还表示:“可以明显看到,其发展方向正从企业对消费者(B2C)转向企业对企业(B2B)”,“在对编码、医疗健康、企业级应用等领域进行优化的同时,引入了类似‘通用验证器’之类的质量强化技术。在复杂任务中提高准确性的同时,对话变得略显干巴巴,原本用户感受到的那种亲切风格有所减弱。”他补充称:“在日常问答中,这些变化不太明显,但在复杂编码请求、深度健康咨询、多智能体服务等需要高度专业性的任务上,差异会尤为突出。”



另一方面,人工智能平台企业 Ruitn 于本月8日开始免费、无限量提供 GPT-5 付费版本。该公司在自家应用和网页中新增了 GPT-5 专用菜单,使任何用户都可以不受限制地使用。Ruitn 去年也曾率先在韩国国内免费开放 GPT-4。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点