张昌盛：从具身智能到具身智能体

摘要：目前的人工智能的理论框架和算法充其量能实现一种具有多模态感知、可多场景执行任务的弱-人工智能体。要实现真正的具身人工智体，需要基于真正的具身智能的理论，探索具身人工智能的理论框架及实践进路。从梅洛·庞蒂的具身主体理论和瓦雷拉的生成认知可以发展出新的具身智能观，也为强-具身智能体的发展提供理论基础和指导性原则。在此基础上，借助卡尔·弗里斯顿的自由能原理及主动推理理论进一步夯实具身智能的科学基础和技术原理。在这种哲学-科学的交叉视野中，可以进一步设想一种基于物理学、生物学和认知科学的具身人工智能体的技术原理和发展进路。

关键词：多模态；弱人工智能体；强具身智能体；具身性；生成认知

当前，以大模型为基本模式的生成式人工智能(ArtificialIntelligenceGeneratedContent，AIGC)取得了长足的进展。由此激起科技界对通用人工智能(ArtificialGeneralIntelligence，AGI)是否很快到来的热烈讨论。具身人工智能(EmbodiedAI)被看作是实现通用人工智能的一条基本途径。那么未来的具身智能体具有哪些基本特征？本文主要是在梅洛·庞蒂(MauriceMerleau-Ponty)的具身主体思想、生成认知理论及预测加工理论的基础上，结合当前人工智能前沿的主要进展及发展进路，进一步探讨人工智能体(AIAgent)的可能性及可能模式；通过对比具身智能与非具身智能的异同、对具身性理论的阐释，以及在这个理论框架内分析现实的智能体的现状，尝试提出理想的具身智能体的基本条件及可能进路的自然主义方案。

一、人工智能体、通用人工智能与算法主义的限度

2022年以来，OpenAI公司的生成式人工智能(AIGC)即大规模自然语言生成模型(GenerativePre-trainingTransformer，GPT)取得巨大成功，随后，基于语言、视觉、声音等多模态的混合专家模型(MixtureofExperts，MoE)，即所谓多模态大模型，成为当下人工智能的热点领域。区别于以往的人工智能，以大语言模型代表的生成式人工智能已经具有较好的泛化能力，初步具有了某种程度上的通用性。

(一)具身人工智能

具身人工智能是具身智能在人工智能领域的扩展。具身智能或具身认知主要指主体是身心内在融合而不可分离的，身体在最原初的层面就框架性地塑造主体的经验，因此主体是身体主体，我们的认知、智能是基于身体主体在行动中与环境的互动而生成。具身人工智能延伸和发挥了具身智能的概念，让智能体具有实体身体，可以感知真实物理世界，并在与环境的交互中进行认知，这是在物理空间中、以与环境动态交互的形式实现认知，是一种具象化的智能，并在此基础上进行决策，采取行动来完成任务(不同于传统人工智能旨在解决虚拟空间的数字空间中抽象的智能问题)。这里的具有智能的实体通常称为人工智能体(AIAgent)。由于人工智能体(AIAgent)会整合多模态、混合专家模型、机器感知等多项前沿技术，具有高精尖、集大成的特质。因此，有些人认为人工智能体(AIAgent)将会是人工智能发展的下一个重要节点，也是逼近通用人工智能的最后一个阶梯。我国有些学者也认为人工智能体将会是一个聚集众多高精尖技术的重大战略项目。

(二)通用人工智能

那么具身人工智能是不是实现通用人工智能的关键一步？在讨论这个问题之前，我们需要先简要分析一下通用人工智能的概念。通用人工智能的所谓通用性是指它具有某种普遍适用性，是相对以往的适用于特殊领域、专用性人工智能而言。这种通用性具有三个层面。第一，通用性是对某一个领域的普遍适用性。例如，现有的大语言模型(LargeLanguageModel，LLM)可以很好地处理语音和书面文字，初步实现了通用性。而视觉大模型也在努力实现对图像、视频等多项任务的统一处理。第二，通用性体现在对多种模态的统一处理。例如，对语言、文字、图像、声音等多种信息的统一处理。现在的所谓混合专家模型采用多种子模型，可以同步地协同、联合处理多种模态的信息，而不再限于每一时刻只能单一地处理文字或语言。第三，通用性意味着可以把认知、决策和行为等统一起来处理。从这三个方面可见，通用人工智能的要点在于优先领域中的通用性、普世性。强人工智能必然是通用人工智能，但通用人工智能未必能达到强人工智能。

当前，科技界所设想的所谓具身性的人工智能，需要把认知、决策和行为统一起来，可以替代人在多种应用场景中执行多项复杂工作任务，即发展人工智能体(AIAgent)。可见，通用人工智能的基本目标，是追求尽量模拟人类的智能，建立可以替代人类去执行多项任务的通用人工智能，也就是人工智能体被看作未来实现通用人工智能的关键节点和基本阶梯。

这种通用性具有相对性。理想的通用人工智能的极限目标，是某种强人工智能，成为类人的主体，在智能和行动能力方面可以替代人类的各项基本能力，同时也可以具有意识乃至自由意志，甚至成为类道德主体。但更可能实现的情境是，机器人能够实现部分替代人类，但还够不上类人主体，即能够达到的是某种程度上的弱人工智能。

人工智能体被设想为是一种具身智能：第一，是因为它具有物理的身体，具有传感器，可以感知对象和周围环境，而不再局限于抽象的数据世界；第二，它的感知和运动是内在关联不可分割，它对外在对象、周围环境的感知是在运动中进行的动态感知；第三，它具有主动的推理和决策能力，它可以根据具身的认知和决策进行行动，与环境互动；第四，具身智能的根本特质是它的算法、模型参数、记忆、数据都是基于它自己具身的活动过程，是与环境的耦合互动中生成的，因此，它的智能、认知、决策和行动都是独特的。

(三)算法主义、怀疑论与不朽智能

目前的人工智能进路无法在理论和技术上充分地支撑这种具身性智能的设想。目前的人工智能是非具身的、孤独的、脱离环境的、抽象的智能，我们通常称为抽象智能或离身智能，也有称为不朽智能(ImmortalIntelligence)。具体而言，目前的人工智能的根本局限在于它秉持的是算法主义。算法主义就是典型的抽象智能、离身智能，即认为人工智能的本质是算法，和算法所依托的硬件、物理、化学等实在层面的因素无关，甚至和所借鉴的大脑的生物机制、神经元组织结构无关。

这种算法主义的最典型代表就是符号计算主义进路的功能主义。目前，主流的联结主义的算法即便部分借鉴大脑神经元组织的某些特点，但本质上来说是采用数学工具进行抽象的算法、模型的建构，归根结底是对数据和信息的算法处理方式，并非模仿物理硬件或生物体的算法。现有的人工智能是借助计算机对于符号、数据等句法层面的算法处理，不会涉及内在的语义层面，也不触及感知、意义，以及真实世界的物理、生物算法机制。这种算法可以与智能原先所属的载体和平台相剥离，可以迁移到别的载体和平台，因此，可以被称为不朽的算法、不朽的智能。这种基于算法的智能观被赫拉利以隐喻的方式称为算法主义、数字宗教。

从算法主义的角度出发，把信息作为本体、算法当作基本规则的视角推到极致，就会产生一种信息本体论：信息、数据而非物理实体成为整个宇宙最根本的东西。从哲学看，这种把信息、数据等本体论化的思想对于人工智能、计算机而言，是一种比所谓表征主义、抽象思辨更为根本层面的理论前提。把这种信息本体论延伸到宇宙学、生物学，去理解世界及生命的本质这样的问题，往往会产生一种变异了的柏拉图主义；否定现实世界的真实性和意义，反而去肯定那些我们通常认为抽象的、思辨的理念和共相。具体而言就是对世界的一种反实在论的理解，认为世界的本质在于信息、符号、数据及算法等抽象、非物理层面的对象、关系和事件。

受柏拉图主义的影响，传统形而上学思潮中有一种我们所经验和认知的外部世界乃至我们自身实在性的怀疑论传统，这种怀疑主义思想有些是本体论层面的，有些是认识论层面，还有方法论层面的。从柏拉图的“洞喻”到笛卡尔的“怀疑论”，都在怀疑这个世界的真实性，只不过前者是本体论层面的，而后者是方法论层面的。现象学中，胡塞尔的现象学方法对外在世界的存在信仰的“悬置”也是一种方法论的怀疑论。普特南的“缸中之脑”思想实验是从指称问题切入外在世界的存在问题，也论证了我们无法证明在我们的感知之外存在真实、客观的世界，也许呈现给我们的一切都只是一种特殊原因造就的幻觉。

如果上述的怀疑论、虚无主义的思想与这种神创论、设计论及人工智能思想结合起来，就衍生出神创论的“虚拟现实”版本。按照“虚拟宇宙论”，我们所在的世界及我们自身可能是由代码及其运行构成的虚拟世界。这种“虚拟宇宙论”从信息和编程的角度理解世界，万事万物不过是不同代码构成，而代码的实质在于指令所蕴含的信息不同，因此这种理论预设了一种自然主义意义上的信息一元论，而生命、意识与物理对象本质上并无二致。按照这种隐喻，那么一旦我们破译我们自己的编程代码，不仅可以复制我们的智能，也可以生成类似于人类的意识，也就是可以复制生命甚至人类。这种神创论、设计论与激进版的主体主义结合起来，就能推出这样的结论，既然造物主可以设计和创造世界，那么我们也可以模仿造物主，用科学尤其是基因科技和人工智能改造世界、改造生命。

可见，算法主义的人工智能在本体论、认识论或方法论层面有这种柏拉图-笛卡尔式的哲学为理论根据，把作为主体的人也理解为抽象的心智主体，延伸到对人工智能的理解，就会认为算法像心灵一样，是抽象的、超脱具体身体、彼岸性的，“软件是不朽的，因此算法主义主张的人工智能是所谓不朽智能(ImmortalIntelligence)。

我们要突破传统智能观，开拓人工智能发展的全新进路，就要彻底反思这种人工智能的理论基础及发展进路，需要回过头来反思意识、身体与智能之间的本质关系，尤其是要对笛卡尔二元论哲学与现代人工智能的关系进行彻底反思。

二、意识与智能

我们要探索人工智能的未来，就先要对智能的本质和可能性有深入、透彻的理解。目前，联结主义的人工智能之所以能取得现今的重要成就，就在于对人类大脑神经元组织处理信息方式的借鉴。那么，大脑、意识与智能三者是什么关系呢？要回答这个问题，就离不开对身、心关系、智能与意识关系的深入阐释。事实上，在先前的经典著作中已经为现在人工智能的发展思路和路线提供了很多的关键观点和线索。

(一)笛卡尔的两种智能

在传统哲学中，智能被认为是生命所特有的，并且与意识关联在一起。这一点尤其体现在近代笛卡尔开创的二元论哲学中。在笛卡尔哲学中，区分了广延和灵魂两种实体，思维基于意识，而意识或心灵基于灵魂这样的实体。笛卡尔的二元论某种程度上是柏拉图主义的认识论翻版。在笛卡尔的二元论中，人的智能是心灵的能力，高级的理性认知和自主行动能力是人类心灵独有的能力，与这个物理世界的元素和规律无关，与身体和世界无涉，这使得智能也有一种柏拉图主义的神秘的、彼岸的色彩。但笛卡尔的二元论也蕴含着另一种可能性，即具身性智能的可能性。具体而言，动物被笛卡尔看作是受本能驱动而行动，本质上是一种生物机器。但这种机器既然是受本能驱动而适应这个世界，采取有利于生存和繁衍的行为，这意味着从可以执行和完成诸多复杂的任务的角度看，它们也是有智能的。后来有些哲学家把人也类比为机器。但不管如何，在传统哲学中，身体这种有生命机体依然是神秘的，动物的智能可以理解为隐含的是生命和有机体所保障的，跟无机物截然不同。于是，笛卡尔的二元论中，相应于心灵和身体，至少可以蕴含两种智能：心灵或意识的智能和具身智能。

但计算机的出现打破了笛卡尔的这种智能观框架，即智能不一定要基于心灵、生命，硅基的机器也可以实现智能。20世纪40年代计算机被发明，人类的部分推理、计算等智能可部分地由计算机实现。于是人们开始从数理科学和计算机的角度重新理解智能，1956年，达特茅斯会议中麦卡锡等人提出“人工智能”“机器智能”等概念，标志着人工智能科技的诞生。这里对“智能”实现了重新定义，即按照固定的程序完成任务的能力，例如，计算机的智能是按照算法的指令集在一定的步骤内完成某项任务。这是一种带有行为主义、操作主义色彩的智能观。人类的智能也有类似机器的按照一定步骤完成任务的功能，但人类智能活动所具有的感知、体验和决策等主观性的层面是机器所缺乏的。机器智能的出现实际上具有革命性，这意味着人类及生命与无机自然界之间的又一鸿沟被消除，即智能并不一定需要意识，甚至不需要以生命为前提。传统的人类作为理性主体性的独特地位被严重地削弱。

(二)两种主要的人工智能进路

20世纪50年代以来，在发展人工智能初期，围绕如何理解智能观念，很多哲学家、科学家对什么是智能、怎么发展人工智能出现了分歧。在这个过程中，哲学与科学相互影响，认知科学哲学领域的两种智能观分别影响或催生了两种人工智能的进路。

1.功能主义的人工智能进路

一些哲学家受刚兴起的计算机及人工智能的影响，提出了符号计算主义的智能观，认为人类智能类似于计算机的智能，大脑是计算机硬件，而意识活动则相当于软件运行，智能就是一种符号计算过程。这种智能观映射到人工智能领域，就是功能主义，主张机器的智能要通过符号计算实现。按照功能主义的智能观，即智能本质上基于算法，智能乃至意识的本质在于程序的运行及信息的处理方式；因此，智能与具体的物理、生物机制和硬件没有本质关联，可以在多元的硅基、碳基平台和载体上多重实现。这种类似笛卡尔心灵的“孤立认知认为没有‘身体’的实体可以展示认知技能。有可能有一个‘缸中的大脑’，也就是说，一个头脑和它的认知功能是独立于其特定的物理嵌入或基底的”。这种符号计算主义延续了所谓柏拉图主义以来的重视抽象概念和思辨的表征主义、否定现实世界本体论地位的反实在论传统，某种程度上也延续了笛卡尔式的人类智能来源于非身体的观念，只不过这里用算法替代了笛卡尔式的心灵、用符号计算替代掉了笛卡尔式的思维；二者的区别在于，算法的世界更远离人类的经验，更为抽象、机械。

2.联结主义的人工智能进路

在认知科学哲学中，有些哲学家受神经科学、脑科学的影响，认为人的智能主要是大脑神经元组织活动的产物，甚至意识也是大脑的产物。一些关注感知、体验等能力的科学家则认为发展人工智能就需要模拟人脑的智能。所谓联结主义是主张人工智能就是机器学习，具体而言是通过软件、硬件来模拟大脑神经元组织的运行机制来实现智能。这种智能观既是笛卡尔的动物是智能机器的观念的发扬，也是对笛卡尔的心灵智能观的否定，智能需要身体尤其大脑，但并不需要作为灵魂实体的功能的心灵。同时，联结主义虽然实现了算法模拟神经元组织来处理数据，但并没有拓展到硬件层面的模拟，局限于对大脑信息处理功能的部分模拟，离真正的具身智能还有不小距离。

目前，生成式人工智能这种生成模型仅仅流于对精选数据的神经网络模型的处理，而神经网络的黑箱性质无法提供关于底层认知机制的易于解释的假设；不需要明确考虑大脑智能的底层的认知过程，对认知的洞察是有限的。这种认知架构对认知的本质提出了非常强烈的假设，但其形式框架可能使其难以生成新颖或创造性的内容。

这两种人工智能进路虽然理论根据、算法基本框架、处理数据的方式不同，但有一个共同特点是都是把智能理解为算法对信息或数据的处理；即便是联结主义主张模拟大脑神经元的信息处理方式，但毕竟只是对信息处理方式的部分模拟，是对信息的一种抽象的、句法层面的处理，而不是对大脑的生物结构、生物-化学活动方式，以及信息的具体处理方式的模仿。归根结底，联结主义的神经网络进路依然是与身体无涉的，与主体所处的周围情境无关，是可以剥离具体的平台和载体，依然是一种“不朽智能”。只不过智能的实现形式由笛卡尔式的“心灵”变成抽象的“算法”。这两种智能观都可以称为算法主义智能观。

(三)具身、仿生的人工智能设想

另外一些哲学家坚持认为，人的智能基于人类的生物基础，尤其与大脑神经元组织的结构和功能相关，甚至与全身的神经系统乃至更多生理机制相关。这种活动伴随着生物电信号的处理，可以被理解为一种广义的生物计算，但这种生物计算基于神经元组织的因果机制，并不能被还原为某种计算机的算法及模型，不应该被理解为是可用算法模拟的信息处理过程。例如，塞尔(J.R.Searle)的生物自然主义认为，人的智能乃至意识，都是大脑的功能性组织的产物，是无法用目前的硅基的人工智能完全模拟的。进一步，瓦雷拉等人的生成认知认为人的智能不仅是具脑的，还是具身的，甚至是在主体与环境互动中生成的。这种智能观可称之为具身的智能观。

当前，人工智能科技主要还是基于联结主义及功能主义的思路进行发展，但近年来也有一些基于具身智能观的进路设想，例如，用硬件模拟人脑神经元结构的物理计算，以及用生物神经元芯片的生物计算、通过软硬件合一的方式来模拟人脑智能等方面的探索。这种新的进路强调智能计算需要“软件”“硬件”合一，智能是智能体在现实环境中的认知-行为过程中动态演化的，这也是智能体与环境的动态耦合中共生的过程。有些学者把这种高度依赖智能体的物理身体，以及与环境的动态纠缠的人工智能称为“有生智能”或“凡人智能”(MortalIntelligence)。

三、具身性与生成认知

梅洛·庞蒂的身体现象学提出了具身主体的理论，这是对笛卡尔以来的主流的意识主体的颠覆性理论。而后续哲学家进行了各种展开阐释和发挥，其中，最有影响的是瓦雷拉等人提出的生成认知(enactivecognition)理论。生成认知理论把具身性和生成认知结合起来，具身性和生成相互交融，相互支撑，可以说是对梅洛·庞蒂的具身性思想的深化、具象化，使具身性理论进阶成具身-生成理论。卡尔·弗里斯顿的自由能原理和主动推理思想进一步规范和补充了生成认知思想。

(一)具身性的观念

梅洛·庞蒂提出身体主体的概念，认为我们不是笛卡尔式的抽象的意识主体、心灵主体，而是具有肉身的主体，身体就是主体，处于世界之中，身体具有心智，可以直接认识世界。具身主体意味着身体并不是对象性的，最根本的意义上，它是主体的非对象性的、原初的层次，它在塑造我们关于自我和世界的经验时是底层的、原初的、框架性的。可以说，对于我们的经验而言，身体是先验的要素和条件。这是对笛卡尔以来的理性的、心智的主体概念的彻底颠覆，也是对身心二元论的克服，身体和心智是融为一体，不可分割的。这样，我们对世界的感知是具身的、自发的，不需要心智的主动、积极地参与。

具身主体或具身心智是对笛卡尔以来的基于心灵的理性主体概念提出挑战。其实早在胡塞尔现象学中就探讨了身体、动感、角度等与感知的关系，而且他认为心智和身体之间存在着晦暗不清的中间地带，身体的基底也在原初地参与我们对原初的外部世界经验的塑造。到了梅洛·庞蒂的身体现象学，具身主体被进一步深化、彻底化：心智是具身的，身体是具心的，身体和心智原初地交织在一起；感知和运动交织在一起，并行又相互作用；认知是基于运动，基于行动；身体与世界原初地不可分离。具身主体原初地塑造了我们身体的行动空间，这种空间不再是物理空间，而是与我们的身体、我们的行为内在地统一的知觉空间。我们的行为不再需要刻意地注意周围的物理空间，而可以熟练地、无意识地进行行动。梅洛·庞蒂说：“一位妇女不需要计算就能在其帽子上的羽饰和可能破坏羽饰的物体之间保持一段安全距离，她能感觉出羽饰的位置，就像我们能感觉出我们的手的位置。如果我有驾驶汽车的习惯，我把车子开到一条路上，我不需要比较路的宽度和车身的宽度就能知道‘我能通过爷，就像我通过房门时不用比较房门的宽度和我身体的宽度。帽子和汽车不再是其大小和体积与其他物体比较后确定的物体。另外，具身性扩展了我们的知觉场，我们使用的工具也可以成为我们身体的延伸，“盲人的手杖对盲人来说不再是一件物体，手杖不再为手杖本身而被感知，手杖的尖端已转变成有感觉能力的区域，增加了触觉活动的广度和范围，它成了视觉的同工器官。这是一种技能训练达到高级阶段形成的本能式的认知方式。

梅洛·庞蒂的具身认知理论区分了两种身体：身体图式(bodyschema)与身体意象(bodyim-age)。身体图式(bodyschema)是一种比较底层、原初的经验构成方式，对知觉-运动系统整合而形成的综合能力，可以通过感知与运动的无意识活动形成关于世界的经验。运动和直觉它通过对身体姿势和运动的无意识调适，使得世界中许多有意义的部分被身体整合入人的经验中。身体意象(bodyimage)具有自指性、自我表征性，是对自我身体的感知、概念及情绪等。

瓦雷拉(Varela)等人基于生成认知的理论，对认知的具身性做过概括：“使用具身这个词，我们意在突出两点：第一，认知依赖于经验的种类，这些经验来自具有各种感知运动的身体；第二，这些个体的感知运动能力自身嵌入在一个更广泛的生物、心理与文化的情境之中。这在梅洛·庞蒂身体现象学的基础上强调了感知-运动对经验的塑造功能，更重要的是强调了具身主体处于整合了生物性、心理、文化和社会等多维度的世界之中。

生成认知强化了梅洛·庞蒂的具身在世存在的观念，把具身认知过程是主体-世界耦合整体中的经验生成机制。具身主体除了原初地参与我们的世界经验的塑造、直接感知外在世界以外，它还有两个特征：第一，它的认知并不是传统哲学中的心智表征世界的表征式认知，而是主体与世界的互动之中动态生成的。第二，具身主体并不是像笛卡尔的心智主体那样在世界之外，以旁观者的视角认知世界，具身主体原初地在世界之内，与世界内在地关联、交织在一起，在此基础上，自我经验和世界经验的形成是一个互动式的、双向循环的动态认知过程。

(二)生成认知

在具身性的基本概念框架内，瓦雷拉(Varela)等人提出了生成认知的概念。生成认知是综合了生物学、复杂性理论及现象学，来阐述具身主体的内在运行机制和认知方式。生成认知认为复杂的自然组织(生命体)是智能的充分条件，所有的生命体都是智能体。这种智能是生命体的复杂系统在非线性、非平衡态地动态运行时涌现出来的，因此，智能不再是抽象心灵的功能，而是身体自身所具有的；所谓智能与意识的具身性，就是它们不是独立于身体的，而是在自然主义的生命复杂系统动态的身体上出现的，是自然的身体所产生、承载、维持、演化的过程。

生成认知的基本主张可以归结为八个方面：第一，我们的主体是一个超复杂的自组织(self-organized)、开放的系统。这个系统是自我组织，而且是自治的。系统与环境之间具有明确的边界，系统能自我维持，自我生成、自我演化、有序运行。第二，这个系统有多个子系统，这些子系统具有多个层面，既有感知系统、也有运动系统，最核心的是神经系统，无论是整体还是每个子系统，都是内在的协调一致，形成统一体。第三，整体与子系统之间、不同子系统之间，以及不同层级的子系统之间存在相互作用。所有的要素、组织、子系统相互作用，形成系统整体的特性。但整体又能因果地影响部分，因此整体和部分形成了双向循环的因果关系。第四，涌现性(emergence)，系统具有整体特性，与诸部分的性质截然不同，不能还原为要素性质的组合。虽然整体是不同部分相互作用形成，但并不等于部分的线性组合，整体具有非线性的动力学机制。第五，神经系统不仅包括大脑，还包括全身的神经感受器，它们形成一个整体，认知就是以全身神经系统的相互作用、共生的运行机制和涌现为基础。认知是神经系统的整体性功能，不能还原为部分运行的组合。第六，人的意识现象层面，也是这个具身性主体的主观性层面，也就是现象意识，是全系统整体性涌现，包括认知、情感、情绪等都是和身体层面的某些自组织运行分不开的，尤其和大脑、全身的神经系统、感受器官等的整体性涌现密切相关。第七，具身的主体是向环境开放的，与环境处于动态的耦合中，主体与环境相互作用，共同演化和不断地生成新的主体和新的环境。这种主体与环境之间的原初的、内在不可分的关系，用海德格尔的表述，就是“此在在世界中存在”。第八，这种生成认知理论认为，主体的认知是身体参与的、与环境耦合、动态互动产生的整体性的涌现现象，不再是静态旁观者的意识主体对客观世界的表征。这也是对笛卡尔以来的认识论的超越。

生成认知基于自然主义立场，即提出了具身-生成的理论模型，对具身性理论进行了进一步具讨论，尤其是借助生成理论，对主体的自组织、自治、生成的模式进行了动力学刻画。生成认知借助复杂性理论，在身心之间加入了动力学机制和信息通讯机制，打通了主体性的意识层面和生物性的身体层面。在此基础上，对具身心智提出了系统化的阐释，认为主体的意识是神经元系统乃至全身整体性运行产生的，这就在复杂性理论和神经生物学的基础上，进一步阐明了身体之所以具有智能，身心之所以内在交融、无法分割，是因为意识不是外在于身体，而是具身性系统涌现出来的。

这种具身、生成的认知理论是对笛卡尔的二元论的颠覆和反转，智能、意识是自然的、身体的产物，不再有什么抽象的、脱离身体的、独立的心灵实体或属性。这也意味着，主体也是具身的，沉浸在世界情境中，肉身的身体就是主体。某种程度上，生成认知是对梅洛·庞蒂的具身性主体理论进行了具体化、系统、深入的讨论。

同时，我们需要注意生成认知和身体现象学的深层区别：生成认知是一种自然化理论，这种分析的方法把智能乃至意识还原为自然的身体的整体性功能和属性，这和梅洛·庞蒂的非自然主义是不同的，后者的身体是原初的存在，是一切关于世界和自身的经验的基础，是不可还原为世界之中的自然要素和规律的。

另外，具身主体尤其是具身认知，作为主体的身体沉浸式地处于与世界的动态纠缠之中，进行意向性的认知、行动。这里的世界包括自然世界，还包括交互主体间性的文化世界，因此，这种主体的活动其实可以看作生活中的实践活动。因此，具身-生成的认知和实践具有了现实的、感性的、尘世的意味。这里所显示的旨趣与柏拉图式的理念世界、笛卡尔式的神秘的心灵、不朽的和冷冰冰的心智观是截然不同的。可以说具身-生成认知具有一种现实世界的、感性的、实践性的维度。

(三)基于弗里斯顿的自由能原理和主动推理建立新的认知框架

认知神经科学家卡尔·弗里斯顿(KarlFriston)从自由能原理(FreeEnergyPrinciple，FEP)和主动推理(ActiveInference)理论出发，提出了一种关于人类的智能机制的“预测加工理论”。概而言之，弗里斯顿的自由原理是指系统中的可变量、系统的状态在统计学上都遵循最小自由能变化的原则，在热力学上是最经济、节能的。这个原理可以用来理解复杂系统的自组织、自适应的演化机制，也适用于认知和信息加工过程。因此，这个理论横跨生物学、神经科学、心理学等多个领域。它可以看作是为具身性、生成认知理论加上自由能原理这一约束性原则，不仅可以很好地发展和丰富具身性的生成认知过程，也可以适用于具身性的人工智能研究。

主动推理框架是在认知上对自由能原理的推演而得出的一种对认知、决策和行动进行统一说明的理论框架。主动推理的核心观点是将感知和行动都看作是推断的问题。只有当生物体认知与行为都遵循感知结果(与事先预测相比)的意外(surprise)最小化时，系统状态变化对应的自由变化能最小化，同时在热力学上是最经济的。意外衡量了智能体当前的感官观测与偏好的感官观测之间的差异。弗里斯顿通过自由能原理和主动推理理论，在统计力学、热力学及信息论点框架内建立了一种对物理学、生物学、心理学、认知、人工智能等的统一性的理解框架，并把它用到复杂系统理论中，就对瓦雷拉等的具身性理论和生成认知进行了一种科学层面的理论重构，这种重构使得具身性及生成认知可以落实到具体的科学机制，进而可以设想实现它们的技术原理及工程方案。这可以看作是对具身智能的自然主义方向的进一步发展。

四、生成认知进路的具身智能体

我们对具体事物的认知都是基于某种理论前提和认知框架。强具身智能的理论根据是具身-生成的理论框架，而弱具身智能则基于联结主义的神经网络理论。按照梅洛·庞蒂的现象学，具身主体性具有基本地位，无法被还原为物理-化学的复杂性系统，也无法看作是自然主义意义上的要素和规律的产物。而瓦雷拉等人生成认知理论则用自然主义的框架理解主体，意识层面也是复杂系统的整体涌现。

学者依据这两种理论，对强具身智能体的实现可能性的判断就会出现分歧。按照梅洛·庞蒂的现象学，具身主体是原初的经验场，是无法被自然物完全模仿的；无论是基于算法的软件模拟，还是借助物理硬件对大脑及身体结构和功能的模拟，都无法实现对人的智能乃至心智的模拟，因此，强具身智能体必然无法实现，智能科技的发展只能是对人类只能的部分模拟。在这种情形下，所谓强具身智能体只能是一种理论上的理想，对具身智能研究的发展具有启发性和范导性。按照瓦雷拉等人的生成认知理论，既然这是一个自然的世界，生命与非生命、意识与非意识之间没有天然的鸿沟。因此，对生成认知而言，强人工智能和弱人工智能之间也没有天然的鸿沟，发展强人工智能的可能性不能排除，至少可以在很高的程度上逼近强具身智能体。依据弗里斯顿的自由能原理和主动推理理论，则瓦雷拉等人的生成认知理论可以进一步落实为建构一种具身化的人工智能的统一框架，并借助技术和工程进一步展开为具身智能体发展的进路。

本文将讨论两种具身智能体：第一，基于人工智能的现实进路及发展趋势的具身智能体是弱具身智能体，这是现实可操作及近期可实现的具身智能体；第二，基于具身性理论和生成认知理论所设想的理想的具身智能体称为强具身智能体，这是未来具身智能体的理想形态。

(一)当前的具身智能体设想

目前，业界正在努力推动的智能体是人工智能全面加持了的机器人，依据现有联结主义的人工智能思路，通过数学构思和设计，发明出越来越强的具身、多模态的智能体。但这种算法主义有其天然的局限性，可以普遍性的发明抽象的、形式的算法，但可能没法触及具身性主体，更无法实现意识，是一种更弱的弱具身智能体。

这种具身智能体包括了工业智造机器人、人型机器人、医疗机器人、养老机器人、自动驾驶汽车、机器狗等使用于各种场景，最具挑战性的是可以全天候、全场景灵活执行任务的人形机器人。

所谓具身智能体就是具有身体、可以行动的人工智能，这里的身体不一定是人型的，无人机、机器狗和智能汽车广义上也是具身智能体。具身智能体的核心框架是具有“认知-决策-行动”v的三元结构，并且在这三者之间形成动态循环，也就是说认知在不断动态更新，决策和行动也相应地变化，以灵活地适应环境、完成任务。智能体需要能够多平台连通，协同作业，可以实现端对端、端对云的大量的数据流的输入输出和对数据本地化处理，可以多模态感知周围信息，可以人机互动，实现人、机、环境交融互动。

但从人工智能的算法和模型角度看，目前的这种智能体并不是真正革新性的具身智能体，而是传统人工智能的延续。认知维度，从算法而言，还是大模型来处理数据，只不过由单模态的算法扩展成多模态，例如，具有视觉、听觉乃至触觉等。区别之处就是会加入一些信息接收器传入的感知数据。决策环节也是基于同样的数据和算法。相对于多模态算法，智能体的身体会加入很多信息传感器、具有多模态的感知能力。智能体会具有对自身及所处位置等的感知能力，可以保证完成预定的任务。

(二)基于梅洛·庞蒂的具身性理论对具身人工智能需要满足的基本条件的设想

如果按照梅洛·庞蒂的具身理论，具身性的主体性无法用自然物模仿，但可以基于这种哲学框架，探索性地推演出一组可以作为未来具身智能体发展的范导和理想目标的规范性条件。

第一，智能体的身体和感受器参与经验的形成，尤其是通过感知外界而生成经验数据，而不是把现成的、加工处理过的高质量数据作为输入项。第二，智能体需要一种身体图式，原初地参与经验的生成，更多的感知经验的生成是智能体身体所具有的能力。第三，智能体需要一种身体意向性，原初地参与到对自身的感知和认知中，可以不断地调节自己的行为和认知方式。第四，具身智能的感知与运动是内在关联在一起、同步进行的。第五，智能体的认知和行动始终处于和外部环境的内在耦合、互动、双向作用中，在这种动态的互动中生成关于外部世界的认知，这种经验是依于智能体自己的特性，同样是对外界的认知，这种具身化生成式认知有自己的侧重点和特性，而不是同质化的，生成的经验可以使它可以更好地适应环境。第六，这种具身化的智能是多模态的，可以处理和整合不同模态的信息，形成整体认知。第七，这种具身化的智能体并不只是算法认知加上躯体感受器的补充信息，躯体也不是执行行动任务，而是要原初地参与到感知经验的生成中。第八，具身智能体不仅能够认知，而且能够根据身体的认知行动，这种行动并不一定是由智能体的中心处理装置发出任务决策，智能体不再依赖于调动外部设备来执行某些行为任务。第九，具身智能体可以理解外部世界，尤其是理解事物之间、人之间的因果关系，进行因果推理，这样才能综合判断外部情境。智能体需要在这种动态情境中采取最合理的决策和行动。

(三)基于瓦雷拉及弗里斯顿的自然主义的进路建立凡人智能的设想

如果按照瓦雷拉等人的具身-生成认知理论，则具身智能是自然生命的产物，而自然物之间并没有不可跨越的天堑，那么人工的机器在满足具身-生成机制的条件下，也可以具有类似于人的智能乃至能够产生主体性的意识。这种人工的机器是必须基于硅基的有机生命体组织，还是也可以基于硅基的硬件模仿及软件算法，并没有定论。至少在基本理论逻辑上，生成认知并不否定强人工智能和强人工智能体。

弗里斯顿把自由能原理的本体论框架和主动推理的认知框架推广到人工智能领域，形成了一种人工智能的新的理论框架和进路。具体而言，就是通过用人的生物学机制指导，类比地设计相应的人工智能硬件及软件，发明类似于人类的具身智能体。

目前，有些学者探索一种所谓凡人计算机(MortalComputation)的仿生智能，是依据生成认知、自由能原理和主动推理等理论，借助生物物理学、生物学、控制论、认知科学等多学科的思想融合，形成的一种新的具身人工智能发展模式。

凡人智能的基本主张是，无论人类智能还是人工智能的数学计算/信息处理过程与实现和执行它们的物理基础是无法分离的，也就是智能的“软件”无法离开“硬件”。这与目前主流的“软件”“硬件”分离的人工智能是不同的，主流的“软件”、算法是不朽的，可以在不同计算机上迁移。还有，无论智能是以生物还是人工形式表现，都不可避免地与面对的环境持久性交织在一起，动态互动，认知的过程和智能发展的过程是统一的，主体与环境是双向因果循环的互动共生过程。可见，凡人智能是一种基于生成认知哲学的具身智能版本。这种具身智能把人类的智能理解为一种基于预测的主动推理机制：人类推理——学习和选择(MortalInference-LearningandSelection，MILS)。这种MILS的智能观视角认为，所有生物都参与三个过程，即推理、学习和适应性结构的选择。这种凡人智能观认为，生命的基本原理是受自由能原理(FEP)支配。第一，生物体自身是有内在独特的动力学机制支配的非线性、非平衡态的、稳态的复杂系统，与外在环境是截然不同的。第二，系统通过不断地有序地输入能量、物质来保持自己维持在非平衡的稳态附近。前两个特点保证了系统是自生、自治的，并朝着超稳定性的方向努力。第三，马尔科夫毯(MarkovBlankets)可以描述系统和环境之间的弱耦合、局部相互作用，这种弱耦合可以保证系统和环境之间实现持续不断物质、能量、信息的双向交流，一方面通过感觉实现对外部环境对内部状态影响的调节，另一方面通过行为实现内部状态对外部环境影响的调节。同时，这种系统与环境之间的耦合是一种动态的、生成的弱耦合，以保证系统能够维持稳定而自控地演化。

具身智能体区别于以往“不朽”算法的人工智能的另一个特点是，它具有三维(3D)空间物理形态，这种形态除了塑造它的空间感知形态，还具有一种对系统的强的核心约束：第一，对信息的不可逆编码(将一个比特值写入存储器或从存储器中擦除)的热力学成本的优化；第二，信息的耦合的形式：“一个实体的物理实例严格地决定了它的输入如何从它的环境中获得，以及它的输出如何传递到它的环境中。”这种形态的规范需要使系统热力学成本和信息处理效率两方面达到平衡。对于最小自由能和热力学成本的降低，需要这种凡人智能体突破传统的计算机的“冯·诺依曼架构”，采取算存一体的全新架构，以便尽量减少从存储器读取和写入的热力学成本。按照自由能原理(FEP)，人类的智能相当于物理上实现了的贝叶斯推理的计算；从FEP理解具身的人，是处于非平衡稳态的智能体，可以实现即最小化热力学自由能。如果把大脑的智能机制解读为贝叶斯计算，那么这种仿生计算可以被描述为贝叶斯最优计算机，即最小化(VariationalFreeEnergy，VFE)。这种具身智能的设想，立足于生成认知的哲学框架，从生物学、复杂系统、控制论和物理学等不同学科，从理论和技术上设想未来的具身人工智能体如何实现自主、自生、与环境的动态交互的机制，以求达到一种统一认知、决策和行动的类人的仿生智能体。

从这三种人工智能体的设想来看，目前的弱人工智能体最容易推进，但很难实质性地突破所谓算法主义的、“不朽”的人工智能框架。依据瓦雷拉等人的生成认知的凡夫智能具有较系统的理论探索和技术设计，从目前进度来看，具有一定可能实现较强的生成认知进路的人工智能体。而按照梅洛·庞蒂的现象学所设想的具身人工智能体，虽然最逼近真正的具身智能，主要是作为未来人工智能发展的极致理想和范导性理念，实际上最难实现。

五、讨论

目前，人工智能界对未来通用人工智能之路怎么走并没有明确的答案，也没有真正的指导性理论，而是在算法层面不断地提出各种构想，每天都有很多新的算法、模型产生，并在不断地试错中改进。这有点类似库恩所说的科学范式建立之前的多元化思想竞争的状况。目前的探索中，最主要的人工智能进路，即延续传统联结主义的人工神经网络方案，近些年来一直迅速发展。这种进路基于神经网络这个基础框架，结合各种数学工具和数据处理办法，陆续发明出很多的人工智能工具。但对于人们期望实现通用人工智能乃至类人智能的愿景而言，这种进路的前景并不明朗。从战略层面看，我们并不能把主要的人力、经济等资源都押注于这种进路，而是应该多管齐下，同时积极探索别的可能的突破契机。

目前，国际学界很多人尝试跳出过去的人工智能理念，尝试基于生物学、控制论、热力学及自然主义哲学等多学科交叉融合的综合视野，探索新的仿生的、具身性的、软件硬件融合的新的人工智能理论和技术。既然是基于仿生的思路，那么就要先探索相应的具身智能的理论框架，也就是在传统具身性哲学基础上，进一步探索如何在自然主义的视角内，具体说是自然科学的框架内去理解和阐释人类的智能本质和原理。在此基础上，通过在物理、化学和硅基的范围内近似地模仿生物体的智能机制，从而建立一种所谓“凡人计算机”式的具身的、具语境的人工智能，从而实现人工智能可以逐渐逼近人类的基础智能，可以作为类主体的行动者，部分代替人类的很多生产和服务性的社会实践。人工智能未来全场景、大规模的应用，会对整个社会的工业、服务业等产业，以及民众就业形势等造成重大影响。由此，对人工智能体的主体性地位的伦理探讨和法律规范，需要在智能观的革新和相应的人工智能体实现突破之后才能真正严肃地讨论。

本文原载《北京工业大学学报》（社会科学版），2024（6）：154-164.

本次推送省略注释，引用请参考原文及出处。

张昌盛：从具身智能到具身智能体

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏