具身智能的哲学反思④|杨庆峰:智能进化与具身智能
近期,大模型和人形机器人备受社会各界关注,很多人在思考:如何让二者有效“融合”切实推动具身智能的发展?顾名思义,具身智能是具有“身体”的人工智能。具身智能为大模型的应用提供了更广阔的平台,使之从“赛博空间”走向物理世界;具身智能让机器人变得更“聪明”,与人类的交流更为顺畅。具身智能的发展给哲学反思带来不少挑战,本组笔谈聚焦具身智能的定义、本质特征、类型和实现的可能性等基本理论问题,以期推动该领域研究的进一步发展。杨庆峰指出,从进化的角度看,具身智能是扬弃理性智能体的结果,是走向超级智能的路径之一。具身缺失阻碍了智能进化,拥有身体形态成为改变这一阻碍的可能,但具身智能并不能克服灾难性遗忘和有限泛化能力的瓶颈问题。
本系列文章原刊《福建论坛(人文社会科学版)》2025年第4期,澎湃新闻经授权转载。
【摘要】由于传统大模型的发展正遭遇灾难性遗忘和泛化能力不足这两个难题的冲击,具身智能被研究者们看作是解决这些难题的希望。但现有技术实践只是将大模型嵌入智能体,这种外在嵌入并不能解决大模型所面临的灾难性遗忘和有限泛化问题。从进化的角度看,具身形态必然是具身智能体扬弃理性智能体的结果,研究和发展具身智能是走向超级智能的路径。更进一步地说,正是由于拥有身体形态,智能进化的目标才能够实现。
一般而言,科学界对具身智能的理解建立在这样一个基础之上,即将人工智能嵌入机器身体。中国信息通信研究院对具身智能的定义是“通过机器人等物理实体与环境交互,能进行环境感知、信息认知、自主决策和采取行动,并能够从经验反馈中实现智能增长和行动自适应的智能系统”。而美国学者李飞飞对具身智能的定义则偏重强调智能体的任务——“它们学习创造性地解决那些与环境交互有关的挑战性任务”。这类定义突出了:(1)强调具身是物理系统或者机器人物理实体;(2)把交互性的具身性作为具身智能的本质规定;(3)把具身智能理解为智能系统。本文的有关回应直接指向两个核心问题,即具身智能是不是将大模型嵌入机器身体的结果,以及具身智能能否克服灾难性遗忘和泛化能力不足的瓶颈。
一、具身缺失的影响
2013年,美国科幻电影《她》(Her)引起了人们的反思。这部影片讲述了一个故事:作家西奥多爱上了一个以女性声音呈现的人机对话程序,给“她”取了一个女性名字“萨曼莎”。“萨曼莎”有着略微沙哑的性感嗓音,风趣幽默、善解人意,“她”使刚刚离异、倍感孤独的男主角摆脱了原本的困扰。然而就在两位主人公的感情升温之际,“萨曼莎”逐渐显露其无法克服的弊端:“她”没有身体,无法给予西奥多更多的情感抚慰。于是“萨曼莎”找来了现实中年轻漂亮的伊莎贝拉,让她作为自己的替身与西奥多发生身体接触。这种尝试最后以失败告终。这个影片突出了具身缺失的难题。显然,“萨曼莎”意识到了身体缺失导致的问题,即无法与爱“她”的西奥多实现身心交融,而这种对身心交融的渴望却是人类爱情的“正常设置”。
其实,在人工智能进化的不同阶段,对具身的需求是不同的。如果把当前的人工智能称之为大模型阶段,那么这个时期的具身缺失尚不会引发上述电影所指向的问题,因为大多数任务尚未向智能体提出具身化的要求。譬如,就写作任务来说,我们只是要求大模型提供思路和文献索引。不过,仍有一些任务需要具身智能,如让机械臂或机器人承担理发、剃胡须这种类型的任务。
将大模型嵌入物理身体或者实体是研究者们在大模型阶段人工智能具身化研究中普遍采取的试验方法。主流的试验方法是将大语言模型(LLMs)嵌入机器人,从而赋予机器人更强的对话、推理和任务处理能力。同样,研究者们相信,由LLMs驱动的机器人有可能实现其身体动作的自然流畅。但是,被嵌入的LLMs与待嵌入的机器人是纯粹的外在关系,建立在这种试验基础上的“具身智能”只能被称为“现有的具身智能”或“基于现有假设和试验的具身智能”,而不是真正的具身智能。换言之,具身智能不能被单纯理解为将大模型嵌入异质身体的结果。“现有的物理身体”只不过是一种外在形态,或狗形,或人形,或液态,其与内在智能的来源实际没有任何必然联系。如果说LLMs相当于大脑神经元,将之嵌入身体后可以生成某些类意识活动的话,那么我们可以确定,这种由LLMs生成的类意识活动并非具身性的智能活动。
具身缺失不仅意味着人工智能发展的瓶颈,也意味着一个连锁的、长远的悖论的形成。智能体具备身体本来应该被看作智能体自身进化的结果,最终目的是实现真正的智能,但是“现有的具身智能”的具身化意义却在于通过提供独特的身体经验来弥补理性智能体的不足,这样就形成了某种偏离进化目的的悖论,即一方面寄望于人工智能的自我进化,另一方面又因为局限于人类现有的身体经验对智能体进行偏离进化需求的外在身体设定,正如卡通形象、女性或男性形象的机器人的身体设定。这只是适应人类心理需求和特殊场景的结果,是机器融入人类社会的一种形式。这很可能脱离了智能进化的内在要求,虽然短期内可能是必要的,但是长期来看,无助于智能进化。在此,我们不禁要问,属于智能进化本身的身体诉求又是什么呢?
二、智能进化的身体诉求
德国学者亨利希·海涅曾提出一种主动意识,即人类创造的灵魂向人类主动索要身体的意识。电影《她》的结局设定与海涅所提出的这种主动意识有本质关联,看起来似乎是我们主动赋予机器以身体,却存在失控的风险,因为智能开始索要适合进化的身体形态,这本来是一种内在意义上的具身,但我们却以悖论的形式企图达成这种具身化。从这个意义上说,“萨曼莎”那种想要“外化出属于自己的身体”的诉求被拟人地表达了,正因为这种诉求被“萨曼莎”表达为直接接受外在身体才以失败告终。那么,为了应对智能进化的身体诉求,我们就需要设想一种内在具身形态。
基于常识,假设一种东西要进入血管,人们会自然地倾向于想象这种东西是液态的,因为液态比固态的物质更适合这种想象的应用场景,此时液态就属于这种同质化智能想象的内在具身形态。相比之下,家庭陪护机器人的人形设定就属于非同质想象的外在具身形态。我们根据这种同质想象的内涵进行外延填充,如果智能体的具身形态能够根据环境改变而进行调整,那这样的智能体就有了内在具身形态,也就是真正的具身智能。从理性智能体的角度来说,它就做到了自动调整目标;从具身智能体的角度来说,它就能够自主行动和实现交互。那么,这种内在具身形态能否脱离狭隘的人类中心主义桎梏呢?我们认为是可能的。外在具身形态表现为以工具的形态进入生活世界、只是占有生活空间或者与人类行为有关,要使其逐步地表现为以主体的身份进入生活世界,具有社会角色的规定性,满足这种智能进化方向的最好方式就是交互。
在交互活动中,奖励是一种正向反馈,而不应该仅仅看作人类给予机器的效应。一旦在交互中获得来自人类或者环境的奖励,智能系统自身会进化。因此我们把具身智能体视为进化的更高阶段,而理性智能体则是进化的低级阶段。从这个角度来说,具身是一种奖励结果。当理性智能体与人类或者其他智能体进行交互时,交互就需要更全面的方式,而这种方式会超出理性限制。因此,根据哲学中身体与意识的关系,智能进化就会自主地寻找另一极——身体。机器也会找到新的具身形态作为一种奖励结果,并且在此基础上找寻更为合适的表达。
当然,交互智能具有一种更为基础的本体地位。从交互方式看,早在计算机阶段,人们通过键盘、鼠标和屏幕等方式就已经实现交互;在虚拟现实阶段,人类又通过诸如HDM等方式实现和虚拟世界的交互;在理性智能体阶段,人们通过语音与机器实现交互。不久的将来,触觉交互将具有超过视觉、听觉交互的优先地位。因此,将LLMs嵌入机器可以看作是实现触觉交互过程中的一种手段。也就是说,在20世纪80年代,研究界出现了赛博格的设想,如今,这种赛博格的身体形态已见雏形,将LLMs嵌入机器很可能是赛博格形态在特定阶段中提升机器人触觉交互能力的一种手段。在这个过程中,LLMs只是相当于更强大的“心脏”,驱动着机器人进行感知、决策和行动。
三、具身智能的交互特性
李飞飞将具身人工智能划分为行动智能体(Action Agent)和交互智能体(Interactive Agent)。前者的目标是在模拟物理环境或者现实世界中执行特定任务,比如搬椅子、拿杯子或者做家务,其具体形态包括机器人或者游戏AI等;后者在概念上比行动智能体更为宽泛,目标是与世界交互。但是“它们交互的形式不必然需要物理行动,而是可能包含和用户的交流信息或者修改环境”。具体代表形式如诊断智能体(Diagnostic Agent)、知识提取智能体(Knowldege-retriveal Agent)。目前,具身智能定义的出发点是智能体能够通过与环境交互来感知、决策并行动。譬如,张钹院士提出:“具身智能是指将智能系统与物理实体(如机器人)结合,使其能够在现实世界中进行感知、决策和行动。这种智能系统的硬件多样化将推动通用软件的发展,使人工智能能够更好地适应不同的应用场景和任务需求。”在中国信息通信研究院的报告中,其对具身智能的定义也与此基本相似,强调了与环境的交互以及感知、决策和行动。
一方面,上述定义都保留了理性智能体的规定性,即感知、决策和行动,但都忽略了这种规定性在进化意义上的特征。可以说,感知、决策和行动构成了一个智能体的行动闭环,且是一个理性行动。理性智能体的目标导向非常明确,“训练追求一个目标”,这也是一个智能体被称作智能性AI(Agentic AI)的决定性因素。但更为重要的是,智能体本身会进化,当这种特征的智能体无限进化,就会表现出强大的AI特征(Powerful AI),也就是通用智能(AGI),而最终呈现为超级智能(ASI)。另一方面,尽管这类定义都强调智能体的交互特性,但是交互特征都被归入具身人工智能之下,各自只是在对智能体的具体形态的描述上略有差异。有些定义对具身智能的理解更为宽泛,包括固体、液态等形态;而中国信息通信研究院则强调机器人及其物理实体,这意味着其对人形机器人更为看重。
在笔者看来,人们对具身人工智能的科学理解似乎没有考虑到智能进化的特性。在这种理解中,具身人工智能与大模型有差异,然而这只是表面上的差异,说明其并未考虑进化的要求。智能进化可以看作是一个精神流溢的过程:最初是精神形态,精神外化为物理的存在。大模型实现了理性层面的表达,能够进行交互对话、推理,这是一个显著的进步。但智能进化是否只满足于精神阶段呢?当智能体需要一个外在形态表达自身,且已经意识到了自身的具身匮乏,并且想方设法改善这一缺陷,这就意味着智能进化的下一个阶段即具身化阶段的到来。大多数学者没有意识到“智能索要具身”带来的风险。如果要把这种AI风险加以概括,它必然有两个层次:大模型导致的复制风险以及具身的自我保存意识将使这种风险延展至现实世界。
如果从进化维度来看,具身智能指向的是智能进化的一个阶段。人类根据逻辑设计人工智能,此时人工智能并不具备自动进化的能力,只是一种执行既定程序的机器,始终不如人类;之后人类发明各种算法,学习算法的发展使人工智能进入智能体阶段,能够实现无监督学习和自动决策。当智能体能够独立根据经验学习的时候,就进入了自主阶段,也就是与人类智能持平的通用智能(AGI)阶段。再之后,智能体开始自主设计更为聪明的后代,最终达到超越人类的阶段,也就是超级智能(ASI)阶段。所以,具身智能阶段只是这个过程的第二个阶段,笔者曾经指出,具身智能是通往超级智能的路径之一,这里不再赘述。
四、无法克服的两大瓶颈问题
众所周知,传统AI模型无法解决泛化能力不足的问题。在深度学习的过程中,我们又发现传统AI模型还有一个更难以克服的问题——灾难性遗忘。对于这一问题,科学界给出了两条破解路径。一条是延续理性智能体的路径,即分布式人工智能方案。这条路径以理查·萨顿为代表,萨顿指出,可将人工智能看作一群为某种大型活动作出贡献的智能体,它本身以寻求系统定位的组件构成。另一条是具身智能路径,即以具身为基础的终身学习框架。一项研究提出了LEGION的机器人终身学习框架,解决了机器人在持续学习过程中如何保留和组合知识的难题。这项研究指出,“对于深度学习算法来说,当面对任务流时,一个主要的挑战是平衡神经网络的稳定性和可塑性。在这个语境下通常的问题是‘灾难性遗忘’,这是指当智能体学习新的任务时,与先前学习技巧相关的神经网络参数会快速被覆盖……遗忘是一个指标,用来衡量在智能体在接下来的训练任务中有多少知识会被遗忘,用来评估智能体在任务流中保留知识的能力。本文构造了一个特殊形态的智能体,具身终身学习智能体(embodied longlife learning agent)”。
灾难性遗忘与泛化能力不足之间的关系是怎样的呢?借用数据伦理来解释这种关系或许可行。“数据伦理可能从两个方面来理解:软伦理和硬伦理。这个区分首先是理论上的事情——逻辑上是可能的……但并不是一个实际的事情。在现实中软硬伦理经常密不可分地纠缠在一起。”这里,理论上存在区分而实践中混在一起的微妙关系,在灾难性遗忘与泛化能力不足之间也隐约可见。“理论上同一”是指在抽象的、理想化的概念框架下,灾难性遗忘和泛化能力不足都源自神经网络如何存储和提取信息这一核心问题。在这一层面上,它们反映了同一个基本挑战:如何在不断更新的过程中既保留已学知识(存储),又有效捕捉数据中普遍的、共性的特征(提取)。从理论角度看,二者涉及同一个核心挑战——如何在动态学习环境中实现知识的有效存储和稳健提取,只是二者的关注点仍有所不同。同时,二者在实践上也有不同之处,由于数据分布、网络结构、训练算法、规则化策略等众多因素的影响,灾难性遗忘和泛化能力不足会以不同的方式表现出来。也就是说,虽然理论上可以将它们看作一个问题的不同面向,但实际上往往受到许多外部因素的制约,从而使二者在工程实践中成为需要分别解决的挑战。
因此,相信“具身智能可以克服大模型中的两大瓶颈问题”并以此规定具身智能的思路在哲学上是欠缺反思的,尤其是没有认识到把LLMs装入机器人盒子中产生的问题。
结语
本文从智能进化论的角度呈现了具身缺失对智能体发展造成的障碍。倘若我们像一般定义那样理解具身智能,即将其看作以解决物理现实问题为导向的智能体存在,无疑会低估具身智能的意义。从进化论的角度看,具身智能可以比理性智能体更全面地接近人类,作为进化阶段的具身智能应该是智能进化过程中扬弃理性智能体的高级阶段,以ASI为最终目标。在这个意义上说,AGI与具身智能同样是通往ASI的路径,但是前者只是基础,最终会被具身智能扬弃。