入驻首尔 AI Hub 的人工智能初创公司 VIDRAFT(비드래프트)发布了用于大规模语言模型(LLM),以减少“幻觉”(hallucination)并强化自我校正能力的人工智能推理中间件“MARL(Model-Agnostic Runtime Middleware for LLMs)”。该技术已通过 Hugging Face、GitHub、PyPI 以及拥有超过26万名开发者社区的人工智能智能体平台 OpenClaw 的技能市场“ClawHub”同步公开。
MARL 是一种在无需对模型重新训练(微调)的前提下,在运行时环境中自动执行多阶段自我验证流水线,从而减少大规模语言模型幻觉的中间件。只需修改原有代码一行,即可立即应用于 GPT-5.4、Claude、Gemini、DeepSeek、Grok、Llama 等大多数支持 OpenAI 应用程序接口格式的大规模语言模型。其核心推理引擎以已编译的二进制形式加以保护,同时向外公开了测试与集成所需的接口。
“元认知”(metacognition)是指人工智能能够意识到自己的回答可能错误,并自行进行修正的能力。然而,目前的大规模语言模型存在两项结构性局限。
第一是元认知鸿沟。VIDRAFT 公开的人工智能元认知基准测试“FINAL Bench”对 GPT-5.2、Claude Opus 4.6、Gemini 3 Pro 等在内的9种最新模型共1,800个案例进行评估后发现,在“意识到自己可能出错的能力(MA=0.694)”与“实际修正错误的能力(ER=0.302)”之间存在巨大差距。
第二是自我否定的结构性局限。由于大规模语言模型基于自回归(autoregressive)结构运作,一旦开始生成回答,中途便难以调整方向。如果初始假设出现偏差,模型会沿着错误方向持续推理,在此过程中会出现伴随高度自信而生成幻觉的问题。
为解决上述问题,MARL 采用了将一次大规模语言模型调用拆分为多个专家角色的结构:由“策划者”设计解决路径,“执行者”撰写初稿,“验证者”指出错误,“整合者”在吸收反馈后生成新的最终回答。用户只会接收到已经打磨过的最终结果,而多阶段推理过程会按阶段记录,必要时可供查阅。
这一结构通过多阶段交互引出单一模型中难以出现的新视角,并在对抗式验证阶段重新审查初稿错误,进而生成新的最终回答。在 FINAL Bench 研究中,应用元认知结构后,最高难度问题的性能提升超过70%,其中94.8%的效果被证实源于自我校正能力的增强。
除基础推理强化功能外,MARL 还内置了面向新药开发、创作、法律等9个领域的专业“涌现引擎”,可用于生成特定领域的专业化创意。
通常,微调需要数千万韩元成本和数周以上时间,而检索增强生成(RAG)侧重于外部知识补强,因此难以直接校正推理错误。相较之下,MARL 在不改变模型权重的前提下,通过在运行时改变推理结构本身来发挥作用。即便更换模型,MARL 层也可以原样保留,从而为采用多大规模语言模型策略的企业提供一致的质量管理手段。
此外,MARL 已正式注册到 GitHub 星标数突破26万的人工智能智能体平台 OpenClaw 的市场 ClawHub。它是 ClawHub 3,200多个技能中“推理强化”类别的首个中间件,为人工智能智能体在采取行动前提供充分“思考”的结构。说明称,如果说 OpenClaw 智能体承担以执行为中心的角色,那么 MARL 则扮演强化元认知的“大脑”角色。
VIDRAFT 相关负责人表示:“通过 FINAL Bench 研究,我们确认即便是当前最顶级的人工智能,在‘意识到自己不知道什么的能力’方面也严重不足。MARL 不是改变模型本身,而是改变人工智能思考方式的技术,我们认为,让人工智能将自我怀疑和自我修正的过程透明地展现出来,才是建立信任的起点。”
VIDRAFT 计划在2026年上半年推出企业版(Enterprise Edition),并将基于 FINAL Bench 的效果验证结果投稿至国际学术期刊。同时,公司已完成进军美国市场所需的当地企业概念验证(PoC),目前正在推进本地化工作。
另一方面,VIDRAFT 是一家以在2030年前开发“True-AGI(真正通用人工智能)”为目标,于2024年成立并入驻首尔 AI Hub 的初创公司。其开发的人工智能元认知基准测试“FINAL Bench”曾入选 Hugging Face 数据集全球人气第5名及排行榜“本周空间”,最近还与全球广播用监视器制造商 Wearcube(웨어큐브)签署了联合研发合同。
此外,公司还取得了 Google DeepMind FACTS Grounding Leaderboard 医疗人工智能领域世界第2名(经法国国家科学研究中心 CNRS 验证)、Hugging Face 热点图排行榜全球第4名、STAR AI TOP 12(2024年、韩国唯一入选)等多项成绩。目前,其月度活跃用户达200万名,累计访问者3,000万名,公开的人工智能模型超过1,500个。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。