[烤面包的打字机]“当AI拥有身体的那一刻，世界将被改写”

by Kim Daehyun

Published 27 Feb.2026 11:01(KST)

从“会解释的AI”到“会行动的AI”
VLA开启知识劳动与体力劳动的大转型

“计算机擅长完成对人类来说困难的工作，却反而难以处理对人类而言轻而易举、微不足道的事情。”这是机器人学家 Hans Moravec 的一句话。我们早晨起床，即便还昏昏沉沉，也会下意识地刷牙、穿衣。然而迄今为止，计算机必须把这类行为拆解成无数句子和数据才能加以理解。要把现实世界中无限多的变量整理成“规则”，几乎是不可能的事。这也是直到数年前，公开展示给大众观看的机器人动作总让人觉得生硬笨拙的原因。

这样的“莫拉维克悖论”开始动摇了。上月举办的全球最大电子与信息技术展会“CES 2026”的主角，是那些能自然地打拳、上下楼梯、在工厂搬运货物的机器人，也就是“物理人工智能（Physical AI）”。MindAI 公司代表 Choi Hongseop 和团队长 Won Mire 合著的《Physical AI 大趋势》一书，将视觉·语言·行动（VLA）模型视为这一潮流的核心动力。如果说大型语言模型（LLM）和视觉语言模型（VLM）仍停留在对语言与视觉的理解层面，那么 VLA 则被认为是把这种理解与现实世界中的实际行动连接起来。

正如人类通过感官和经验学习世界一样，人工智能也在通过学习海量图像、文本和行为数据的“数据驱动”方式不断演进。自动驾驶产业的变化很好地印证了这一点。2022年至2023年，行业遭遇危机，其背景是必须应对几乎无限多的例外情况的“长尾问题”。对此，由 Elon Musk 领军的 Tesla 放弃了将规则以代码形式明示的做法，转而通过学习海量行驶视频，让系统自行作出判断。基于摄像头的自动驾驶，已成为与硬件主导路径相对立的软件主导战略的象征。

书中将这一趋势界定为“ChatGPT 之后的下一章”。作者分析称，正如过去几年重塑知识劳动市场的生成式人工智能一样，体力劳动也将通过 Physical AI 迎来结构性变革。在劳动力短缺和人口老龄化的现实之中，Physical AI 与其说是选项，不如说是必然。作者尤其强调，Physical AI 不应被视作单纯的机器人技术，而应从一条价值链的角度来理解。从执行器和传感器等硬件，到人工智能模型、半导体，整个生态系统环环相扣、协同运转。

农业、国防、建筑、制造等领域被认为将最先大规模引入 Physical AI。若不仅考虑人工成本的削减，还将工期缩短、安全性提升等因素一并纳入考量，其产业影响力会更为巨大。当然，挑战也十分明确。电池能量密度的限制、发热与功耗问题、端侧芯片的优化等技术壁垒依然存在。书中提出，Physical AI 的进步最终不应以“看上去多像人类”来评价，而应以“对人类有多大用处”为标准，这正是本书想要传达的核心信息。

书中对美国与中国战略的比较也颇具看点。美国依托大型科技企业为中心的平台和资本，以及图形处理器（GPU）等研究基础设施，不断扩展生态系统。中国则凭借国家主导的制造业基础和庞大的内需市场，紧追美国。在这一夹缝中，书中也探讨了韩国的可能性。作者指出，精密制造能力和系统集成能力在 Physical AI 时代同样可以成为竞争力，并建议应同步推进大胆的监管放宽与技术标准的抢先布局。正如 ChatGPT 在某一刻突然闯入日常生活的中心，一旦具备“身体”的人工智能跨过临界点，也可能呈现爆发式扩散。不过，其速度与方向将取决于产业结构、政策与资本的选择。韩国政府也曾在去年提出“Physical AI 第一强国”的愿景。

如果一个知识劳动与体力劳动同时被重塑的时代正在逼近，人类的价值将何以为继？书中强调“机器无法模仿的人性”。也就是，每个人用来判断什么样的故事能够打动人心、什么样的选择在伦理上才是正确的那一套独特标准。在技术即市场的时代，比起仅仅掌握某一项具体技术，具备“无论什么都能学”的根本能力更加重要。因为正是这种能力，才能在人工智能倾泻而出的无数结果当中，辨别出真正有价值的内容。