从“会解释的AI”到“会行动的AI”
VLA开启知识劳动与体力劳动的大转型
“计算机擅长完成对人类来说困难的工作,却反而难以处理对人类而言轻而易举、微不足道的事情。”这是机器人学家 Hans Moravec 的一句话。我们早晨起床,即便还昏昏沉沉,也会下意识地刷牙、穿衣。然而迄今为止,计算机必须把这类行为拆解成无数句子和数据才能加以理解。要把现实世界中无限多的变量整理成“规则”,几乎是不可能的事。这也是直到数年前,公开展示给大众观看的机器人动作总让人觉得生硬笨拙的原因。
这样的“莫拉维克悖论”开始动摇了。上月举办的全球最大电子与信息技术展会“CES 2026”的主角,是那些能自然地打拳、上下楼梯、在工厂搬运货物的机器人,也就是“物理人工智能(Physical AI)”。MindAI 公司代表 Choi Hongseop 和团队长 Won Mire 合著的《Physical AI 大趋势》一书,将视觉·语言·行动(VLA)模型视为这一潮流的核心动力。如果说大型语言模型(LLM)和视觉语言模型(VLM)仍停留在对语言与视觉的理解层面,那么 VLA 则被认为是把这种理解与现实世界中的实际行动连接起来。
正如人类通过感官和经验学习世界一样,人工智能也在通过学习海量图像、文本和行为数据的“数据驱动”方式不断演进。自动驾驶产业的变化很好地印证了这一点。2022年至2023年,行业遭遇危机,其背景是必须应对几乎无限多的例外情况的“长尾问题”。对此,由 Elon Musk 领军的 Tesla 放弃了将规则以代码形式明示的做法,转而通过学习海量行驶视频,让系统自行作出判断。基于摄像头的自动驾驶,已成为与硬件主导路径相对立的软件主导战略的象征。
书中将这一趋势界定为“ChatGPT 之后的下一章”。作者分析称,正如过去几年重塑知识劳动市场的生成式人工智能一样,体力劳动也将通过 Physical AI 迎来结构性变革。在劳动力短缺和人口老龄化的现实之中,Physical AI 与其说是选项,不如说是必然。作者尤其强调,Physical AI 不应被视作单纯的机器人技术,而应从一条价值链的角度来理解。从执行器和传感器等硬件,到人工智能模型、半导体,整个生态系统环环相扣、协同运转。
农业、国防、建筑、制造等领域被认为将最先大规模引入 Physical AI。若不仅考虑人工成本的削减,还将工期缩短、安全性提升等因素一并纳入考量,其产业影响力会更为巨大。当然,挑战也十分明确。电池能量密度的限制、发热与功耗问题、端侧芯片的优化等技术壁垒依然存在。书中提出,Physical AI 的进步最终不应以“看上去多像人类”来评价,而应以“对人类有多大用处”为标准,这正是本书想要传达的核心信息。
书中对美国与中国战略的比较也颇具看点。美国依托大型科技企业为中心的平台和资本,以及图形处理器(GPU)等研究基础设施,不断扩展生态系统。中国则凭借国家主导的制造业基础和庞大的内需市场,紧追美国。在这一夹缝中,书中也探讨了韩国的可能性。作者指出,精密制造能力和系统集成能力在 Physical AI 时代同样可以成为竞争力,并建议应同步推进大胆的监管放宽与技术标准的抢先布局。正如 ChatGPT 在某一刻突然闯入日常生活的中心,一旦具备“身体”的人工智能跨过临界点,也可能呈现爆发式扩散。不过,其速度与方向将取决于产业结构、政策与资本的选择。韩国政府也曾在去年提出“Physical AI 第一强国”的愿景。
如果一个知识劳动与体力劳动同时被重塑的时代正在逼近,人类的价值将何以为继?书中强调“机器无法模仿的人性”。也就是,每个人用来判断什么样的故事能够打动人心、什么样的选择在伦理上才是正确的那一套独特标准。在技术即市场的时代,比起仅仅掌握某一项具体技术,具备“无论什么都能学”的根本能力更加重要。因为正是这种能力,才能在人工智能倾泻而出的无数结果当中,辨别出真正有价值的内容。
《Physical AI 大趋势》|Choi Hongseop、Won Mire 著|Wisdom House 出版社|340页
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。