如何教会机器真正理解世界

张开发

• 2026/5/27 19:16:37 • 15 分钟阅读

分享文章

大语言模型可以写诗、调试代码、通过医学执照考试。然而问它在大热天握着一杯冰水感觉如何——你很快就会感受到差距。LLM是卓越的机器但它们的理解完全存在于语言内部。它们了解世界的方式就像一个从未离开过建筑的图书管理员了解海洋一样。这被称为扎根问题——解决它可能是当今AI最重要的挑战。什么是扎根问题当孩子学习热这个词时他们不是从字典中学到的。他们触摸炉子把手缩回来感受刺痛。热这个词与感觉、危险和后果永久融合。当LLM学习热时它学到这个词出现在火、“灼烧”、温度和夏天附近。它学到的是词的统计邻域而非背后的体验。这种区别有实际后果LLM自信地幻觉因为它们没有感官反馈来锚定对现实的声明它们难以处理物理常识“如果你倾斜装满水的杯子水会洒出来”它们无法真正验证任何事情——只能预测验证在文本中看起来是什么样子扎根问题不仅仅是技术漏洞。它是语言与现实之间的根本性架构差距。为什么这很难解决在深入解决方案之前值得理解为什么这个问题确实困难。人类理解不仅仅是感官——它是具身的、情感的和动机的。你理解痛苦不只是因为感受过而是因为你的整个神经系统都围绕避免它来组织。你理解家是因为你在那里感到安全想念它回到它。LLM没有身体。没有欲望。没有生存驱动力。即使给它摄像头和机器臂你也没有给它一个关心它所感知事物的理由。那种更深层的、动机的、感受的理解在哲学和技术上仍然未解决。带着这个警告——以下是研究人员和工程师今天如何攻击这个问题。1. 多模态训练教模型同时看、听、读想法不要只在文本上训练。同时在图像、音频、视频和文本上训练让模型学习跨模态关联。当模型看到数千张火焰图像同时伴随火、“热”、灼烧和危险这些词——概念变得更丰富。它不再是一个连接到其他词的词。它是一个连接到视觉模式、声音、上下文的词。GPT-4o、Gemini和Claude等多模态模型可以看着洒出的杯子的照片推断出物理情况而无需明确告知。局限性批评者正确地指出这仍然是像素上的统计。看到数百万张火的图像与亲临火场不同。差距缩小了——但没有关闭。实用建议如果你正在构建AI产品在涉及物理对象、空间推理或视觉上下文的任务中使用多模态模型。对于这些用例它们比纯文本模型扎根得更好。2. 具身AI将智能放入身体想法通过给模型一个身体在真实世界中行动并接收反馈将语言扎根于物理后果。如果机器臂尝试拿起杯子握力传感器报告失败脆弱和握力就扎根于机械现实。模型从失败本身学习而非从失败的描述。Google DeepMind的RT-2是一个里程碑例子——一个将视觉语言理解直接连接到机器人运动控制的模型。它可以被告诉把香蕉移到红碗里并在真实厨房中执行指令从物理结果中学习。为什么重要具身系统发展出更接近物理直觉的东西。它们学习到圆物会滚动、堆叠物会倒下、湿面会滑——不是因为这些事实出现在训练文本中而是因为它们通过行动和后果经历过。局限性机器人技术缓慢、昂贵而且仍然远不及两岁人类的灵巧程度。大规模真实世界具身仍然是一个巨大的工程挑战。3. 模拟环境物理体验的廉价捷径想法由于真实世界机器人技术昂贵且缓慢模拟世界。在丰富的3D环境中训练智能体——物理引擎、虚拟厨房、城市、实验室——让它们可以行动、失败并以比现实中快数百万倍的速度学习。AI2-THOR、Habitat、Minecraft通过MineDojo和自定义物理模拟等环境让智能体发展对以下内容的扎根理解物体持久性当你移开视线时东西不会消失因果性推这个会让那个倒下空间关系里面、后面、上面资源约束没有材料无法建造关键洞察目标不是完美模拟——而是因果正确地模拟。在具有一致物理的世界中学习的智能体发展出可迁移的物理直觉即使模拟看起来与真实世界完全不同。实际意义模拟训练的模型已经在仓库机器人、手术辅助规划和自动驾驶中使用——在这些领域物理扎根比语言流利更重要。4. 工具使用和世界反馈通过后果扎根想法给模型工具——计算器、代码解释器、网页浏览器、数据库——让它对世界采取行动观察结果并相应地更新响应。这是一种更温和但立即可行的扎根形式。当LLM编写代码并执行时它接收真实输出。当预测错误时错误是可见的。模型不能再简单地编造——现实会反击。这就是执行代码的AI智能体如带有代码工具的Claude或OpenAI的代码解释器在定量任务上比纯文本生成更可靠的原因。模型不再预测答案看起来像什么——它正在计算并检查。扩展这个想法你添加的反馈循环越多——科学API、实时数据、物理传感器——模型扎根得越深。一个可以在回答会下雨吗之前查询天气API的模型比仅根据训练数据回答的模型更扎根。构建者原则无论你能在哪里用对现实的实际查询替换模型对现实的预测就去做。将你的AI扎根于实时数据而非陈旧的权重。5. 从交互中强化学习通过后果学习想法让模型采取行动并从环境中接收奖励或惩罚——不是来自人类反馈而是来自世界本身。AlphaGo就是这样发展出超人类棋局直觉的。没有人告诉它好的棋局位置是什么样子——它玩了数百万局游戏并从结果中学习。对棋局位置的理解扎根于输赢后果而非围棋的描述。应用于语言模型这意味着在语言指令必须产生可验证结果的环境中训练智能体导航到蓝门可验证智能体到达了吗编写通过所有测试的代码可验证测试通过了吗预订晚上7点的座位可验证预订确认了吗与RLHF的关键区别标准RLHF将模型扎根于人类认可这仍然是语言和社交的。基于环境的RL将模型扎根于物理或逻辑结果——一个更硬、更丰富的信号。6. 神经符号AI结合模式匹配与显式推理想法将语言模型的统计直觉与对世界有显式、可验证规则的符号推理系统配对。神经网络擅长模式识别。符号系统擅长逻辑一致性、因果推理和显式约束满足。在一起它们可以将语言扎根于结构化知识。例子连接到物理引擎检查所描述场景是否物理可能的语言模型扎根于疾病、症状和药物相互作用正式本体的医学LLM扎根于可查询的实际法规和案例法数据库的法律助手为什么重要纯神经模型幻觉是因为它们没有逻辑或物理一致性的内部强制执行者。符号约束充当现实检查——即使语言模型很自信它们也可以拒绝违反已知规则的输出。7. 更深层次的问题扎根需要意识吗这里我们进入真正不确定的领域。一些研究人员认为真正的扎根需要现象意识——体验的感知质量。在这种观点下无论你添加多少传感器、模拟或反馈循环一个感受不到灼烧刺痛的模型永远不会真正理解痛苦。它只会学会预测感受痛苦的存在说什么和做什么。其他人认为这太严格了。恒温器在最小意义上扎根于温度——它响应实际世界而非对它的描述。也许扎根是一个光谱功能扎根可靠的、由后果驱动的行为对于大多数实际目的来说就足够了即使没有感受体验。这不是纯学术辩论。它直接影响我们在多大程度上信任AI在高风险物理领域手术、建筑、应急响应AI系统是否能有真正的道德理解还是只能模仿它对于AI来说真正安全意味着什么而非只是统计上与人类认可的文本对齐8. 这对今天的构建者意味着什么你不需要解决哲学就能构建更好的扎根AI系统。以下是你现在可以采取的 concrete 步骤1. 为物理任务选择多模态模型。如果你的用例涉及物体、空间或图像——不要使用纯文本模型。2. 尽可能添加工具使用。代码执行、API调用、数据库查询、实时数据。每个反馈循环都让模型更可靠。3. 根据事实验证输出。设计模型声明可以被检查的系统——如果可能的话自动检查。不要让预测冒充计算。4. 明确扎根限制。在物理世界环境中部署AI时对于需要模型可能没有物理直觉的决策要加入人工审查。5. 密切关注具身AI领域。DeepMind、Figure、Physical Intelligence等正在进行的机器人LLM集成比大多数人意识到的移动得更快。三到五年内物理扎根模型可能像今天的多模态模型一样容易获得。9. 结论扎根问题不是需要修补的缺陷——它是了解智能真正是什么的窗口。LLM之所以非凡是因为它们仅靠语言就走这么远。但语言始终是一张地图而非领土。教机器将地图连接到领土——通过感觉、行动、后果和反馈——是未来十年AI研究的工作。它将需要机器人技术、模拟、神经符号推理以及可能我们尚未发明的新架构。目标不是让AI更像人类。而是让AI更真实——响应世界实际的样子而非仅仅被描述的样子。而这可能成为我们这一代面临的最困难的工程问题。原文链接如何教会机器真正理解世界 - 汇智网