在过去十年中, 人工智能 (artificial intelligence, AI) 领域取得了巨大成功, 特别是深度学习技术的广泛应用, 极大地推动了计算机视觉、自然语言处理等多个研究领域的技术突破. 然而, 尽管取得了诸多成就, 当前人工智能技术仍面临重要挑战. 例如, 以 GPT-4 为代表的大规模预训练模型, 仍然属于离身智能 (disembodied AI) 范畴, 即不包含有物理实体的执行模块, 仅依靠软件、算力、网络等基础设施来处理数据、进行学习和作出决策. 因此, 虽然大规模预训练模型在学术界与产业界获得了广泛认可, 但在寻找应用场景、落地现实世界等方面仍然问题突出.
另一方面, 具身智能 (embodied AI) 近年来已成为新的研究热点. 与离身智能相比, 这类技术通过将机器人作为执行模块, 试图将 AI 的计算和学习能力与机器人的物理交互能力相结合, 以期解决传统 AI 算法在现实环境中的局限. 具身智能技术不仅为 AI 的学习进化提供了重要的身体感知交互回路, 更为 AI 落地真实世界提供了途径, 因此获得了学术界和产业界的认可和巨大投入. 当前, 具身智能面临的主要问题包括如何使 AI 高效地自主感知与学习、如何提升机器人的机动性与执行力, 以及如何确保机器人行为满足安全与伦理要求等.
容易看到, 无论是离身智能还是机器人形态的具身智能, 它们都将人类或用户作为互动的对象和客体, 也就是说独立于人类视角, 试图从 AI 视角提供解决方案. 因而, 无论是从独立决策和执行难度层面, 还是从可信 AI 的理论与法规层面, 这两种智能形态都面临着长远的发展道路. 更重要的是, 它们不可避免地会对人类社会的现有运行模式进行重塑, 与生产生活中的现存参与者形成竞争替代关系. 这些问题都对当下 AI 技术的实际应用带来了巨大挑战.
因此, 本文尝试重新思考 AI 与人类的关系, 并在此基础上提出一种新的技术概念 — 共身智能. 如图 1 所示, 这一概念主张基于人类主体地位, 将人类与 AI 的双视角进行整合, 实现认知决策层面的对齐与协同, 以及物理层面的共身与反馈. 在不取代人类本体地位的前提下, 通过 AI 能力的展现和发展, 帮助人类更好地感知和适应环境, 实现人类意图, 构建更易控制、更快落地、更加安全可信的 AI 形态.
定义1 共身智能是指通过技术手段将人类智能与人工智能以人类视角为基准进行深度对齐和融合, 同时整合各自物理载体 (人体 + AI 硬件) 与环境动态交互, 形成以人为中心的协同感知、高效决策与交互执行能力. 这种智能形式不仅强调人类与 AI 之间在信息层面的双视角协同, 还包括在物理层面的整合.
共身智能的概念区别于学术界已有的增强智能 (augmented intelligence) 和混合智能 (hybrid intell- igence) 等理论. 这些理论虽然也强调人与 AI 之间的协作, 但大多着眼于利用人与 AI 各自的优势, 通过任务分工来完成特定的任务. 它们通常通过某些模式将人类与 AI 纳入到同一个执行流程中, 以实现智能的互补. 尤其在某些场景下, 希望 AI 比人类更加高效, 进行独立决策与执行. 它们并不要求两种智能必须在人类主视角下深度协同, 也不要求在物理层面的 “共身” 执行.
与此相对, 共身智能不单纯追求完成任务, 而是更加关注 AI 在现实活动中的展现和发展方式, 是达成广义 “具身” 目标的差异化新方案. 其核心在于 “双脑一体” 的深度整合, 包括在认知决策层面实现 “双脑融合”, 即人脑与 AI 的深度对齐与协同, 以及在物理层面实现 “双脑共身”, 即以人体为核心的环境互动与感知反馈. 因此, 共身智能探索如何更好地依托人类, 实现 AI 在现实世界中的展现与发展, 这体现了与混合智能等人机协作技术在理念上的区别.
对比共身智能与当前的具身智能, 二者均实现了 AI 在环境中的感知、决策、执行与学习. 差别在于具身智能通过机器身体与环境直接交互, 基于环境交互反馈数据进行 AI 学习, 最终由 AI 独立驱动机器身体执行任务; 而共身智能通过人体 (及 AI 硬件辅助) 与环境互动, 基于环境和人的双侧反馈数据进行 AI 学习, 最终由人和 AI 共同决策并通过人体执行任务.
共身智能技术发展可以粗略划分为技术前期与技术成熟期. 在技术前期, 共身智能的主要目标是实现其基本形态, 即 “双脑融合” 和 “人机共身”. 这一阶段的共身智能, 英文可被称为 “cobodied AI”, 强调的是智能系统与人类在信息层面的初步整合, 具备智能 “共身” 特性. 进入技术成熟期, 人与 AI 的关系将演变为更加深刻的 “共生” 模式, 这种深度融合超越了单纯的信息互通, 涉及到情感、记忆、认知、决策过程的全面参与, 以及人体与 AI 硬件的深度整合, 英文亦可被称为 “symbodied AI”, 体现从 “共身” 到 “共生” 的深层次演变.
因此, 共身智能面临独特的关键科学技术挑战, 以及技术实现路径, 预示着对现实世界的接口和应用方式将发生根本性变革. 共身智能具有极强的学科交叉特性, 除人工智能外, 可能涉及脑科学与认知科学、神经科学与生命科学、人机交互与虚拟现实, 以及机器人与控制科学等多个领域的交叉, 因此具有极高的复杂性和挑战性. 本文旨在提出和探讨共身智能在发展初期需要突破的 8 个关键科学技术问题, 以推动该方向研究和产业应用的进展.
(1) 共身智能的基础理论与实现路径. 针对共身智能 “双脑融合”、“人机共身” 的技术特点, 深入探讨人脑、AI、人体、环境等关键要素的概念范畴与相互关系, 明确所涉及的关键技术要点, 规划近期、中期和远期分别需要解决的关键问题和拟实现的目标.
进一步, 探索和建立共身智能的完整理论模型与研究方法, 涵盖从感知到决策、决策到执行、执行到反馈、反馈到进化等关键步骤与阶段, 综合认知心理学等学科理论, 规划相关理论研究和技术发展的具体路径.
(2) “双脑融合” 的基础理论与方法. 为构建双脑融合理论, 需要在认知与脑科学、AI 智能算法两个方面形成突破. 针对前者, 主要回答人脑认知决策的过程是什么、包含哪些关键步骤、如何利用直接或间接手段实现可观测和可计算等问题.
针对 AI 算法, 综合考虑感知、理解、决策等关键算法类型, 以及视、听、语、力、触等数据通道, 确保与人脑认知决策过程对齐. 此外, 共身智能要求以人类的第一视角进行 AI 计算, 可能需要探索新型计算和交互模式.
(3) “双脑融合” 的分歧处理与决策. 人脑与 AI 之间存在根本性差异, 其协同决策过程必定会产生分歧. 当前, 解决这些分歧的有效方法是以可解释性为基础, 以人脑为决策主体, 进行深度对齐与理解. 为此, 需要双脑在认知决策过程中保持实时同步, 在多个通道上实现有效交互.
此外, 双脑决策机制至关重要. 针对任务特点, 需要探索人脑与 AI 的分工模式及意见权重, 实现优势互补, 并制定有效的应急处理机制. 进一步, 如何基于历史决策过程及其效果数据来优化决策策略, 也是重点研究方向.
未来, 随着 AI 技术的进一步发展, 以及伦理、法规方面问题的解决, “双脑融合” 的模式是否可能从 “以人为中心” 走向真正的共生, 即人脑不再作为决策主导, 是值得探讨的远期问题.
(4) 基于人体的环境交互与智能展现. 双脑智能如何通过人体与环境高效互动, 是共身智能需要回答的基本问题. 一方面, 双脑认知决策需要通过人体对外展现, 另一方面, 环境反作用于人体并向双脑提供反馈. 相比于高度可控的机器人执行与传感技术, 基于人体的环境交互与感知如何与 AI 结合, 仍然有待探索. 此外, 如何保证双脑决策不超出人体能力与承受力, 避免各类安全隐患, 是必须首先解决的问题.
此外, 广义的共身智能还可以包括多种呈现形态, 例如外骨骼增强、人车共驾、机器人助手等. 这些方面的研究有望进一步提升人类适应和改造环境的能力.
(5) 共身智能的关键设备与交互技术. 探索共身智能的硬软件集成方案, 研究和开发各类以人为中心的穿戴设备 (如智能眼镜、手环、外骨骼)、虚拟现实设备 (如沉浸式头盔、混合现实眼镜) 和神经植入式脑机接口设备 (如皮层电极、神经植入芯片) 等, 以及非穿戴式的机械臂、机器人等智能执行系统. 共身智能设备应当支持多种信息获取、感知、交互与呈现通道, 实现与用户和外界环境的同步互通.
在此基础上, 应针对不同环境和需求提供适合的硬软件方案. 此外, 如何评估和保障设备的可用性、有效性以及安全性, 是需要解决的重点问题.
(6) 共身智能如何推动 AI 学习进化. 共身智能将 AI 与人体整合, 构建了 AI 学习所需的身体反馈回路. 与 AI 完全控制机器身体的具身智能不同, 共身智能具有双脑共存、人体参与执行等特点, 显著提升了与环境交互的智能性和复杂性. 这既拓宽了 AI 的进化空间, 又极大提高了 AI 的学习难度.
为实现共身智能下的 AI 学习, 需探索共身智能与环境交互反馈数据的收集和建模方法, 研究双脑认知决策过程的记录与推演机制, 为 AI 学习进化提供所需数据支持. 针对 AI 模型训练, 设计基于人与环境双路反馈的 AI 模型训练优化方法.
(7) 共身智能体验如何影响人类智能. 共身智能技术一旦形成应用, 将为用户提供前所未有的 AI 共身体验, 对于特定人群的影响可能更为显著. 例如, 全盲者由于无法接收光视觉信号, 眼动控制功能会逐步退化. 通过建立 AI 共身回路, 利用眼球跟踪与语音播报技术, 有望重建眼球运动与视觉信息获取的关联通路, 对全盲者大脑皮层的相应区域功能产生影响, 为神经科学和认知科学领域带来新的研究议题.
另一方面, 随着共身智能体验的不断积累, 其对人类智能和习惯的长期影响存在不确定性, 可能包含多方面的积极前景, 以及安全风险与挑战.
(8) 共身智能与具身智能的深层结合. 相较于以机器人为载体的具身智能, 共身智能以一种差异模式实现了 AI 在物理世界的展示与发展, 两者有望在更大的基础理论框架下实现统一.
随着相关技术的发展成熟, 共身智能和具身智能将在实际应用中日益结合. 例如, 以人类为主体的共身智能和以机器人为载体的具身智能可以形成协作, 共同在物理世界中完成任务, 其本质是 “双脑” 与 “多体” 的进一步整合. 在此背景下, 需要重新审视和深入探讨上述各项科学技术问题, 及时识别和解决潜在的风险与挑战, 为提升人类能力开辟新的可能性.
以上内容是本文通过分析和研究, 对共身智能这一新概念给出的定义和讨论, 包括迫切需要解决的 8 个关键科学技术问题. 实际上, 共身智能作为一个全新的技术概念, 还面临着诸多的未知难题与挑战. 这些问题可能涉及用户体验与感受、成本与效益、伦理与法律、隐私与安全、文化与社会等多个方面, 需要学术界的多学科合作, 以及产业界和管理部门的共同努力来解决, 以促进共身智能技术更早、更有效、更安全地服务于人类社会, 推动人类文明向新的高度发展.