AI 初创公司 VIDRAFT 推出减少幻觉的推理中间件 MARL 全球同步发布

by Lee Sanghyun

Published 11 Mar.2026 16:35(KST)

AI 初创公司 VIDRAFT 推出减少幻觉的推理中间件 MARL 全球同步发布

入驻首尔 AI Hub 的人工智能初创公司 VIDRAFT（비드래프트）发布了用于大规模语言模型（LLM），以减少“幻觉”（hallucination）并强化自我校正能力的人工智能推理中间件“MARL（Model-Agnostic Runtime Middleware for LLMs）”。该技术已通过 Hugging Face、GitHub、PyPI 以及拥有超过26万名开发者社区的人工智能智能体平台 OpenClaw 的技能市场“ClawHub”同步公开。

MARL 是一种在无需对模型重新训练（微调）的前提下，在运行时环境中自动执行多阶段自我验证流水线，从而减少大规模语言模型幻觉的中间件。只需修改原有代码一行，即可立即应用于 GPT-5.4、Claude、Gemini、DeepSeek、Grok、Llama 等大多数支持 OpenAI 应用程序接口格式的大规模语言模型。其核心推理引擎以已编译的二进制形式加以保护，同时向外公开了测试与集成所需的接口。

“元认知”（metacognition）是指人工智能能够意识到自己的回答可能错误，并自行进行修正的能力。然而，目前的大规模语言模型存在两项结构性局限。

第一是元认知鸿沟。VIDRAFT 公开的人工智能元认知基准测试“FINAL Bench”对 GPT-5.2、Claude Opus 4.6、Gemini 3 Pro 等在内的9种最新模型共1,800个案例进行评估后发现，在“意识到自己可能出错的能力（MA=0.694）”与“实际修正错误的能力（ER=0.302）”之间存在巨大差距。

第二是自我否定的结构性局限。由于大规模语言模型基于自回归（autoregressive）结构运作，一旦开始生成回答，中途便难以调整方向。如果初始假设出现偏差，模型会沿着错误方向持续推理，在此过程中会出现伴随高度自信而生成幻觉的问题。

为解决上述问题，MARL 采用了将一次大规模语言模型调用拆分为多个专家角色的结构：由“策划者”设计解决路径，“执行者”撰写初稿，“验证者”指出错误，“整合者”在吸收反馈后生成新的最终回答。用户只会接收到已经打磨过的最终结果，而多阶段推理过程会按阶段记录，必要时可供查阅。

这一结构通过多阶段交互引出单一模型中难以出现的新视角，并在对抗式验证阶段重新审查初稿错误，进而生成新的最终回答。在 FINAL Bench 研究中，应用元认知结构后，最高难度问题的性能提升超过70%，其中94.8%的效果被证实源于自我校正能力的增强。

除基础推理强化功能外，MARL 还内置了面向新药开发、创作、法律等9个领域的专业“涌现引擎”，可用于生成特定领域的专业化创意。

通常，微调需要数千万韩元成本和数周以上时间，而检索增强生成（RAG）侧重于外部知识补强，因此难以直接校正推理错误。相较之下，MARL 在不改变模型权重的前提下，通过在运行时改变推理结构本身来发挥作用。即便更换模型，MARL 层也可以原样保留，从而为采用多大规模语言模型策略的企业提供一致的质量管理手段。

此外，MARL 已正式注册到 GitHub 星标数突破26万的人工智能智能体平台 OpenClaw 的市场 ClawHub。它是 ClawHub 3,200多个技能中“推理强化”类别的首个中间件，为人工智能智能体在采取行动前提供充分“思考”的结构。说明称，如果说 OpenClaw 智能体承担以执行为中心的角色，那么 MARL 则扮演强化元认知的“大脑”角色。

VIDRAFT 相关负责人表示：“通过 FINAL Bench 研究，我们确认即便是当前最顶级的人工智能，在‘意识到自己不知道什么的能力’方面也严重不足。MARL 不是改变模型本身，而是改变人工智能思考方式的技术，我们认为，让人工智能将自我怀疑和自我修正的过程透明地展现出来，才是建立信任的起点。”

VIDRAFT 计划在2026年上半年推出企业版（Enterprise Edition），并将基于 FINAL Bench 的效果验证结果投稿至国际学术期刊。同时，公司已完成进军美国市场所需的当地企业概念验证（PoC），目前正在推进本地化工作。

另一方面，VIDRAFT 是一家以在2030年前开发“True-AGI（真正通用人工智能）”为目标，于2024年成立并入驻首尔 AI Hub 的初创公司。其开发的人工智能元认知基准测试“FINAL Bench”曾入选 Hugging Face 数据集全球人气第5名及排行榜“本周空间”，最近还与全球广播用监视器制造商 Wearcube（웨어큐브）签署了联合研发合同。

必读新闻

明年若达不到业绩就砍到9700万…“6亿 vs 4.6亿 vs 1.6亿”细看三星电子DS部门绩效奖金

此外，公司还取得了 Google DeepMind FACTS Grounding Leaderboard 医疗人工智能领域世界第2名（经法国国家科学研究中心 CNRS 验证）、Hugging Face 热点图排行榜全球第4名、STAR AI TOP 12（2024年、韩国唯一入选）等多项成绩。目前，其月度活跃用户达200万名，累计访问者3,000万名，公开的人工智能模型超过1,500个。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。

AI 初创公司 VIDRAFT 推出减少幻觉的推理中间件 MARL 全球同步发布

必读新闻

不容错过的热点