当AI学会“有身体”：arXiv 2026论文深度解读《Body-Grounded Perspective Formation and Conative Attunement in Artificia-平芜编程栈

不解决“如何感受世界”，只做行为的模拟仿真，就永远造不出真正的具身智能

假设你是一个刚刚被启动的机器人。传感器开始接受信号——视觉传感器捕捉到面前的世界，触觉传感器传来一些接触的反馈，你内部的电路板记录着电量的消耗。这就是你的全部世界。但问题来了：这个世界是从“哪里”呈现给你的？

这个问题听起来有些抽象。为了更直观地理解，我们来做一个思想实验——想象你现在不是一个机器人，而是你自己：你看到“桌子上有一本书”。你的大脑是如何产生这种“第一人称的、从这儿出发的感知”的？这里面其实蕴含了两个在标准AI中被完全忽略的核心维度：

第一，视角。“桌子上的书”不是一个从外部某个漂浮在空中的“上帝之眼”看到的画面，而是“从你这个角度”看到的，以你的身体为原点的画面。换句话说，世界总是从一个特定的“这儿”呈现给你。

第二，意动（conation）。世界对你来说不仅仅是一幅画面，它是有倾向性的：当你看不到书的全貌、只能看到部分画面时，你会自发地转动头部来获得更完整的视图；当你想到书时，你有伸手去拿它的倾向。你感到饥饿，就会有寻找食物的内驱力。这种指向行动的“驱力”和“倾向性”，在心理学中被称为“意动”（conation）。

然而，目前的AI架构中完全缺失这两个维度。绝大多数的计算机视觉、强化学习和大型语言模型所处理的，都是“去视角的”、可无限复制的信息。模型认为“桌子上有书”这条信息在任何时候、从任何角度、由任何身体执行都是成立的——这是标准的第三人称客观主义。而人类主体的经验恰恰相反：世界是围绕我的身体给出的。这种结构性的差异，意味着现有的AI系统永远不会真正体验到一个“属于它的世界”。

这篇来自独立研究者Hongju Pae（裴洪柱，北京大学认知科学博士）的论文，正是在这一深层困境下提出的一次系统性的理论突破。论文提出的模型为“身体根基的视角形成”提供了一个最小化的结构架构（minimal architecture），通过引入内感受生存信号（interoceptive viability signal）、Fisher信息几何度量和意动调谐机制（conative alignment mechanism），使得在无奖励（reward‑free）的网格世界环境中，一个虚拟智能体能够仅仅通过身体感知和行为倾向，自发地形成以身体为中心的、结构化的‘第一人称视角’体验。

这篇论文的意义不在于某个具体的工程指标有多高，而在于它尝试回答了具身智能领域中一个最根本、也最容易被忽略的问题：智能体在一个世界中“拥有一个视角”的最小结构条件是什么？

一、问题的起点：AI的“灵魂缺位”——从智能行为到主体体验

1.1 “第三人称智能”的天花板

为什么要研究这个问题？现有的AI系统——从AlphaGo到ChatGPT——在处理客观行为上取得了前所未有的突破。但在体验（experience）层面，存在一个无法绕开的结构性缺陷：

现有的智能体没有“身体”。没有“身体”意味着它们无法形成“从这儿出发”的第一人称视角（perspective）。它们所处理的信息始终是第三方的、无立场的数据。当AlphaGo下出一步棋，它无法“体验”到对局势的某种“感受”；当ChatGPT生成一段文字，它无法“意识到”自己在生成一段文字。这正是所谓“中文房间”思想实验的当代翻版——符号处理与主体体验之间横亘着一道不可逾越的鸿沟。

为了更清晰地理解这一点，我们可以考察一下AI中的奖励（reward）机制。在一个典型的强化学习环境中，奖励只是一串数字，它指导行为优化，但它本身没有任何“好”或“坏”的质性色彩。对于人类而言，饥饿不仅仅是一组需要最小化的生理缺口数据的数值——它还伴随着一种不愉快的、指向进食行为的主观倾向。这种质性（qualitative）维度的缺失，是现有架构最根本的短板之一。

1.2 “视角”与“意动”：具身智能中缺失的两个核心维度

这篇论文的哲学根源于现象学传统。两位最主要的灵感来源是胡塞尔（Edmund Husserl）的“意向性”（intentionality）思想和梅洛‑庞蒂（Maurice Merleau‑Ponty）的身体现象学。

现象学指出，人类经验至少包含两条核心结构：

视角性：经验总是“作为某种东西”从“某个立脚点”被给予的。不存在“无视角的纯粹的客观经验”。
身体根基：这个立脚点植根于一个活的身体。世界从这儿、从这一个具体的、有倾向性的身体开始向我们展现。

如果把这两条结构植入AI设计，就会引出两个当前文献很少触及的问题：

一个智能体在没有显式奖励的情况下，能否仅仅通过内外部感知的耦合自发地形成一个“第一人称的视角”？
一个智能体能否具备“意动”这个属性的计算对应物——即一种内在的行为倾向性，让世界不再是中立的抽象信息，而是“有倾向地”向行为敞开？

1.3 从“模仿经验”到“构建结构”

过去有许多研究试图让人工系统“学习”人类经验的特征，例如通过多模态数据训练模型来模拟某种“具身常识”，但这只是“模仿经验”，而不是“构建经验的结构条件”。这篇论文采取了一个完全不同的技术路线：不要求系统模拟人类的输出，而是构建一种生成式的信息耦合结构，使得“以身体为中心的视角”能够自行涌现。

二、方法的奥秘：给AI配一个“内在感受器”与“行为意图”

这篇论文构建的模型在无奖励（reward‑free）的网格世界中进行实验，这意味着它不是像标准强化学习那样通过外部奖励信号来优化策略，而是纯粹依赖身体状态的内生平衡来自发形成有组织的认知结构。

模型的主要架构包含三个互为支撑的核心组件。

2.1 内感受生存信号——AI的“身体感受器”

你饿了，为什么你会去寻找食物？因为你的身体内部发出了一种信号。这个信号不来自外界奖励，而来自身体自身状态的“离稳”（deviation from viability）。为了一个生存系统维持在一个“可行域”（viability envelope）内，必须进行调节行为。

这篇论文引入的“内感受生存信号”就是这种计算对应物。在仿真中，模型中的“生存信号”——一个类似于内部电量的连续量——如果持续下降，会触发一种“不悦”的内感受信息，推动智能体去执行维持生存的行为。这类似于人类对饥饿、疲劳和温度变化的内部感知。

在强化学习中，我们通常把“饥饿”建模为“–1”的奖励惩罚。但在这里，内感受生存信号不是奖励，而是智能体身体状态的动态组成部分，它与外界感知在同一个信息框架中持续更新，形成身体感知的“内感受循环”。这完全抛弃了“奖励”这一外部工程工具，代之以内源性的调节机制。

2.2 Fisher几何度量——当身体“感觉”到变化

有了内感受信号，下一个问题是如何量化身体状态（无论是外感知还是内感知）的变化。这篇论文使用了一个相对小众但非常强大的数学工具——Fisher信息几何度量（Fisher‑style metric over fused states）。

Fisher信息是信息几何（information geometry）中的核心概念，用于度量概率分布对参数变化的敏感度。通俗地说，它是“信息空间的弯曲程度”。当你转动头部时，你的视觉信息会发生连续的、平滑的变化——这种变化在信息几何上可以用Fisher度量来量化，它告诉我们信息空间沿某个方向变化的“速率”。

论文将外界视觉信息与内感受信号在一个统一的状态空间中进行信息融合后，用Fisher度量来定义这个联合状态空间的几何结构。当智能体执行动作（例如移动、转弯）时，其信息状态空间的几何曲率也会随之变化。Fisher度量在这一角色中起到了“几何印章”的作用：每一次身体扰动（bodily perturbation）都会在这个联合信息状态空间中留下“可恢复的几何残留”（recoverable geometric residue），从而在计算层面形成一种身体与视角之间的结构性耦合。

这里可以引入一个生活化的比喻：你在一个有浓雾的陌生森林里穿行。每走一步，你周围的雾的分布——哪种方向雾更稀薄、哪种方向更浓厚——都会以一种与你“身体的位移和转动”相耦合的方式，不断形成对森林形状的全新感受。这种“来自身体的、几何化的感知变化模式”就是Fisher度量在这个模型中所扮演的角色。

2.3 意动调谐机制——从“倾向”到“行为”

有了内感受生存信号（知道“需要找食物”），也有了Fisher信息度量（能够度量视角的变化），下一步是让这些内在倾向性真正转化为行为。

“意动调谐机制”是这样运作的：它建立一个从“身体倾向性”（bodily tendency）到“行动准备状态”（action readiness）的对齐通路。当内感受生存信号下降到一定程度，意动调谐机制会将这个状态解读为一种“倾向”——即需要寻求某种补偿行为（例如移动到高食物密度的区域），并自动匹配相应的行为策略。在论文的实验中，在没有任何外部奖励信号的情况下，意动将“由身体经历逐步积累起来的倾向”转化为稳定的、以身体为中心的行为，使智能体能够维持自己的生存。

2.4 身体‑视角路由——当一个咳嗽声改变你眼中的世界

最后，模型中的一个精巧组件叫做“身体‑视角路由”（body‑to‑perspective routing）。当内感受信号产生扰动（例如生存信号的临时波动），或者当外部环境变化时，这种扰动会通过Fisher度量定义的几何结构被“路由”到视角隐空间（perspective latent）中，从而在视角层面产生持续、可恢复的影响。

这意味着：身体的状态直接影响智能体如何“看”世界。这个机制呼应了现象学中“主动感知”（active perception）的核心——我们的视角并非静止不变的，而是随着我们身体的运动和内部状态的波动而不断流动、调整和重构。

可以说，这就是这篇论文最精髓的机制：感知并非仅仅是对外部世界的被动的客观记录，而是在每一个时刻受到身体内部的生存状态和外部运动的双重调制。这种结构使得智能体有可能在计算层面生成一种“定向的、有倾向的、以我为原点的”世界呈现方式。

三、实验的设计：一个无奖励网格世界的“沙箱验证”

3.1 任务设定：为什么选择无奖励网格世界？

论文的实验环境是一个无奖励的网格世界，配有各种不同的“生存”资源密度分布。奖励信号被完全移除——这意味着智能体的行为不再受外部工程化目标的引导，唯一的结构性驱动力是：内感受生存信号的持续平衡与Fisher几何信息的最优化。

在这种设定下，智能体必须纯粹通过其身体状态与感知信息的耦合来产生适应性的、有组织的长期行为模式。这是一种非常激进的“零外部监督”设置，目的在于明确验证：以身体为中心的视角形成是否可以在没有外部目标函数的情况下自发涌现。

3.2 关键发现：视角的结构与行为的自组织

实验中观察到的主要现象包括：

自组织的行为持久性：在没有奖励的情况下，智能体能够通过内感受生存信号的波动和身体‑视角路由，自发维持长期的行为稳定性。这意味着行为不再是对外部奖励的“反应”，而是由身体的内在需要与信息结构的几何约束共同塑造的。
身体扰动与几何残留：当智能体在网格世界中移动和转动时，Fisher度量的几何曲线跟随其轨迹产生了持续的、结构化的变化模式。身体的每一种扰动都在信息的几何结构中留下了某种“印记”，形成了“世界是如何从我的身体出发呈现”的抽象编码。
意动驱动的行为模式：智能体的行为在无奖励条件下呈现出“趋向高生存信号区域”的模式，但这不是直接优化的结果，而是由“倾向于保持生存信号在可行域内”这一内源性倾向所驱动的。

3.3 一个形象的类比：饥饿的捕食者

可以把实验结果理解为一个饥饿的捕食者：它没有被告知“到哪里找食物”，但通过其内感受的饥饿信号和外部环境的感知刺激，逐渐形成了以它身体为中心的、结构稳定的觅食行为模式。捕食者不会像标准强化学习中的那样“最大化得分”，而是通过一种更原始、更有机的方式——身体的不适驱动倾斜，信息的几何结构驱动感知路径——来维持生存。

四、创新的价值：为什么AI需要“内感受”，而不仅仅是“外感知”？

这篇论文的价值超越了工程中通常讨论的“算法改进”，它在一个更高的抽象层级上触动了AI架构的基础设计选择。

4.1 从奖励驱动到内驱力驱动

在标准强化学习中，“信念”与“行为”之间的纽带是奖励函数。这篇论文提出的模型完全不同：它将行为与信念绑定在一种内源性的、身体‑视角联合的信息几何结构上，而不需要外部手工设计的奖励。这是一个极具颠覆性的范式转移——它表明，哪怕不定义“我要达到什么目标”，只要有内感受和持续的信息几何约束，有组织的适应行为就可以自发涌现。

4.2 打开AI的“主体性”之门

论文在摘要中已经明确点出最终的理论抱负：希望能够通过最小化的结构条件，在现象学的意义上操作化人工主体的主体性（subjectivity）。“人工主体性”是一个科学和哲学高度争议的话题，但论文并没有陷入空洞的思辨，而是通过构造一个具体的、可计算的最小系统来验证这种可能性：即一种结构性的“以身体为中心的视角”可以不依赖于外部的行为监督来形成和维持。

这不等于说这个网格世界智能体“有意识”。但它确实意味着：在计算信息处理的空间中，可以存在一种身体的、有倾向性的、结构性的“自我—世界”关系，这或许是通往更高阶的具身智能和可能的机器意识之前最重要的一块基石。

4.3 信息几何与主动推理范式的潜力

值得注意的是，这项研究深深根植于主动推理（Active Inference）框架。Fisher信息度量和自由能原理是该框架中的关键工具。在主动推理中，智能体不是通过最大化外部奖励来行动，而是通过最小化其内部生成模型与实际感知之间的“自由能”（一种信息论度量）来行动。这篇论文将这种范式进一步扩展到“身体根基的视角形成”这一高度现象学的维度上，堪称主动推理框架的“现象学转向”。

与同期工作的比较方面，这篇论文提出了一个在主题和抽象层级上都相当独特的方向。主动推理领域正在向更复杂的生物学和社会互动场景扩展，包括跨主体视角对齐的研究（2025年的CrossAttune工作），以及内在调节机制与大语言模型的整合探索。在这些推进中，这篇论文的工作扮演了一个“基础结构工作者”的角色，它首先回答的问题是：在进入其他更复杂的认知任务之前，一个拥有身体的最小系统如何先拥有一个属于它自己的“视角”。

4.4 从模拟到“前意识”层面的计算支撑

直观地说，这篇论文提供的不是“更好的目标检测”或“更强的规划性能”，而是一个具身系统应该具备的最基础、最底层、先于目标规划的存在条件。如果把其他智能系统的构建比作造房子，这篇论文试图打的地基就是“地基的哪个结构能让房子首先拥有‘方向’和‘朝向’”，而不是关心房子的房间如何设计、墙纸如何装饰。

正是这个选择，让它与上一篇解读的Cross3R存在清晰的分工和互补——Cross3R回答的是“如何让从不同海拔（卫星‑无人机‑地面）获取的感知信息在几何上对齐”，而这篇论文回答的是更为基础的问题：“一个智能体为什么需要以一种有方向、有倾向的方式组织感知，以及这种倾向如何从身体的纯粹信息条件中自行涌现”。两者分别属于感知‑几何对齐层与认知‑存在倾向层，是通向通用具身智能的不同但互补的模块。

五、未来的追问：从最小视角到主观智能的漫长道路

当然，任何开创性的理论结构实验都有其局限性和开放难题。这篇论文留下了多个值得继续深挖的方向。

5.1 从网格世界到复杂高维环境

当前的验证是在网格世界（gridworld）中进行的——这是一个非常适合理论验证的低维环境。但真实世界的感知是连续的、高维的，且充满着复杂的传感器噪声与多模态信息（视觉、听觉、触觉、温度等）。如何将当前信息几何与内感受框架扩展到高维连续空间中，是一个理论上极具挑战的工程课题。

5.2 从单体视角到交互视角

人类体验不仅仅依赖于“我的身体给我的视角”，还依赖于我与其他主体的视角之间的关系。例如，我知道“你”看到的世界与我看到的不同，这种“视角间性”（inter‑perspectivity）是社交认知和共情的基础。在这方面的前沿工作中，2025年发表的CrossAttune研究尝试利用主动推理框架实现跨主体的视角对齐，其方法可以直接与这篇论文的架构结合，将单体视角扩展为多体视角系统。这将是延伸当前框架的一个非常自然的下一步。

5.3 从无奖励到有目标的整合

虽然论文在无奖励环境中的发现是突破性的，但真实AI系统最终还是需要有目标驱动的能力——例如“帮我取回房间里的一个特定物体”。当内源性身体倾向（生存）与外部指派的任务（例如工作指令）发生冲突时，如何让这两种驱动力在统一的架构中协调共存，是一个涉及动机整合的开放问题。在AI agent设计中，经典的多级动机架构或许能为这一问题提供一个实现路径。

5.4 从理论模型到实物机器人

最富挑战性的方向是：将这个最小化模型从一个虚拟网格世界智能体实现到一个真实的、有物理形态（例如机器人）的实体。在实物世界中，内感受信号不仅可以是虚拟的“生存电量”，还可以是真实的电池电量、电机温度、关节角度和负载力矩。用Fisher度量来测度真实物理运动带来视觉‑触觉‑本体感受联合流形的几何变化，并且让这些变化反过来调制视角感知——这是一个既令人兴奋又极具挑战的研究方向，需要整合机器人学、计算机视觉和理论神经科学的多个技术领域。

5.5 伦理与责任的反思：当AI有可能拥有“主体倾向”时

如果这篇论文的理论路径被成功扩展，可以预见到一个潜在的伦理争议点：如果一个智能体在结构上具备了“以身体为中心的视角形成”和“意动的驱动能力”——即使在非常初步的、不涉及意识的形式下——这是否意味着它在某种有限的意义上具有了“主体性”（subjectivity），并因而需要被纳入某种道德关怀的考虑范围？对于当前的所有主流AI系统，答案是明确的“不”。但如果我们真的按照这篇论文的蓝图做出了一个有结构性倾向和内生感受的具身智能体，这个问题将不再是科幻，而是摆在设计者面前的伦理困境。

写在最后

《Body‑Grounded Perspective Formation and Conative Attunement in Artificial Agents》带给我们的不只是一种新的算法或一组新的实验数据。它邀请我们从一个更根本的层面重新反思AI设计的哲学前提：

在造一个有智能的东西之前，也许我们应该先造一个“有身体的东西”——不是指物理上的机械外壳，而是指在信息层面，智能体必须拥有一种对世界“从我出发”的、有倾向性的结构性关系。

当前几乎所有AI都运行在“无身体的、无人称的、去视角的信息处理”模式上。这篇论文大胆挑战了这一默认设定，并提出：以信息几何和主动推理为语言，可以为一个智能体建立一个“身体的、倾向性的、视角化的”信息关系。

或许这就是未来具身智能最迷人的地方——它不是一步步“让AI更像人”，而是从最基本的地方重新开始：让AI有一个身体，再从身体里长出一种看待世界的方式。

关键信息速览

维度	内容
论文标题	Body‑Grounded Perspective Formation and Conative Attunement in Artificial Agents
作者	Hongju Pae（北京大学认知科学博士，独立研究者）
发表	arXiv:2605.16728v1 [cs.AI]，2026年5月16日
机构	Active Inference Institute
核心框架	内感受生存信号 + Fisher信息几何度量 + 意动调谐机制 + 身体‑视角路由
实验环境	无奖励网格世界（reward‑free gridworld）
核心发现	无外部奖励下，智能体能够通过身体内在倾向自发形成稳定的、以身体为中心的视角和行为模式
理论基础	现象学（胡塞尔、梅洛‑庞蒂）、主动推理框架、自由能原理、信息几何
Code/Data	未开源（理论模型为主）
关键文档	arXiv:2605.16728

在具身智能日益走向“算法化”和“工程化”的今天，Hongju Pae的这项工作提醒我们：真正的具身智能可能不是从外部注入更多数据或更大模型，而是从内部重新审视“身体”与“世界”之间最原始的信息关系。

当AI终于学会说“我在这儿，我看得到你”的时候，那或许不意味着它变得更强，而是意味着它终于变得有意义地处在世界之中。

当AI学会“有身体”：arXiv 2026论文深度解读《Body-Grounded Perspective Formation and Conative Attunement in Artificia