人形机器人表情交互：硬件自由度、皮肤材料与算法的三重挑战

交互体验的革命是人形机器人成熟度与普及率提升的重要突破口。随着机器人面部表情技术的成熟，未来结合表情神态等信息进行交互的方式将革新传统的人机交互范式，赋能各类强交互场景的机器人产品。

本文将深度解析机器人表情交互的行业趋势与关键技术节点，欢迎与我们交流行业动态与合作机会。

Table of Contents

为什么要关注人形机器人的交互赛道？

——交互是人形机器人核心技术之一，交互体验的革命将带动人形机器人进一步成熟与普及

自2024年以来，中国的具身智能产业，尤其是人形机器人产业，进入了发展的快车道，未来极具爆发潜力。根据《2025人形机器人与具身智能产业研究报告》数据显示：2025年中国具身智能市场规模预计约52.95亿元，到2030年，中国具身智能市场规模将达到1,037.52亿元，复合增长率81.31%，且占到全球市场的44.6%。

根据人形机器人的不同技术栈，可以大致将人形机器人分为三种类型：

（1）移动：重点解决locomotion问题，使得机器人可以在环境中稳定移动自身的位置，解决该问题的代表如宇树、众擎等。

（2）操作：重点解决机器人灵活操作外物的需求，解决该问题的代表如特斯拉Optimus。

（3）交互：重点解决机器人感知环境或外物并做出相应互动的需求，解决该问题的代表如EngineeredArts等。

图1：人形机器人的关键技术栈分类

目前，人形机器人公司在移动或操作方案上已相对成熟，交互技术仍处在初期探索阶段。当机器人具备成熟的移动与操作能力，就满足了作为生产力的基本需求，可以在工业、农业等领域进行商业化探索。但人形机器人之所以作为“人形”存在，就必然需要融入人类社会，与人进行交互。因此，长期来看，交互能力是人形机器人成熟、普及率提升的关键节点。

以史为鉴，交互体验的革命预计将成为人形机器人未来大范围普及的重要突破口。参考PC互联网时代，电脑正式走进千家万户的重要契机就是图形用户界面（GUI）的发明，这使得普通人也能简单便捷地使用电脑，进而大大提升了电脑的普及率。而移动互联网开端的标志性事件是iPhone的发布，iPhone的触屏、APP生态等全新的设计，完全颠覆了传统手机的交互方式，开启了智能手机的新时代。

为什么要关注表情交互赛道？

1. 面部表情的互动将革新人机交互范式

目前人机交互主要依托于屏幕、语音交互的方式。预计未来在交互需求较强的具身智能应用领域，面部表情丰富、交互自然的人形机器人将大大提升人机交互效果。根据美国社会心理学家Albert Mehrabian教授提出的梅拉宾法则（The Rule of Mehrabian），在人际沟通交互中，仅有7%的信息来自语言内容本身，有38%的信息来自听觉信息，包括语调、语气等因素，而面部表情、肢体语言等非语言因素传递了高达55%的信息。

图2：梅拉宾法则

2. AI交互领域已涌现出众多潜在的产品化场景，成熟的面部表情交互技术方案具备巨大应用潜力

在例如家庭场景等复杂度很高的非结构化场景中，会涉及复杂的感知决策与运动控制，即使是简单的抓取水杯、叠衣服等工作，也需要很高的精确度，因此，具备移动、操作等强功能属性的机器人的大范围应用仍旧困难重重。

AI交互类产品更强调用户的交互体验，对比如表情控制的精细程度等要求低于移动/控制型机器人，对于交互方式、产品设计等能力的要求更高。相较而言，交互类机器人有望率先实现落地，AI陪伴/交互领域已经涌现出各类新兴产品。

在软件级产品中，已经涌现出筑梦岛、星野、猫箱等AI情感陪伴软件。同时，各类硬件级产品也逐渐问世。目前已有多款桌面机器人、宠物机器人推出，目前仍以屏幕/语音交互为主，该类产品大多外形可爱或有趣，能一定程度上满足用户的情感互动需求，定价一般在千元级至万元级人民币。此外，部分公司推出具备仿人外形的交互机器人，这类产品在面部外形及表情上与人类相似，追求提供更仿人的交互效果，但目前大部分仿人机器人仍存在明显的恐怖谷效应，产品仍在迭代升级中。

目前交互体验不及预期是这类产品的主要瓶颈之一。随着表情交互技术的进一步发展，预计未来将出现具备成熟表情交互能力的仿人或卡通型的陪伴机器人。

图3：不同类型的AI交互陪伴产品

表情头的关键技术节点

1. 硬件端

（1）自由度设计

在设计仿人机器人表情头时，需要根据人类面部肌肉分布、动作单元等去相应地设计机器人表情头的自由度。根据Paul Ekman和Wallace V. Friesen提出的面部动作编码系统（Facial Action Coding System，简称FACS），人类面部左右单独计数共42块肌肉，其中表情肌主要有32个，构成了30个主要的面部动作单元（AU）。

机器人表情头的自由度可分为主动自由度和被动自由度，主动自由度主要由表情肌解剖学理论和应用于数字人脸的动作单元的设计指导。被动自由度的设计暂无明确的设计指导。

表：机器人表情头自由度分类

（2）电机选择与研发

表情头的电机选择核心关注点是推力/扭矩（大）、速度/转速（快）、噪音（小）、尺寸（小）、重量（轻）。不同的电机对于表情头的性能指标影响如下表所示：

表：不同类型电机对比

除电机外，减速器的选择也影响表情头的性能指标。一般来说，平行齿减速箱噪音大，寿命短（几百小时）；行星减速箱噪音小，寿命长（上千小时），但长度长，价格高。

国内外现有的表情头产品大多采用货架电机产品来做，主流方案是有刷空心杯电机+平行齿减速箱。但该方案寿命不够长，噪音相对较大。扭矩和体积受电机供应商产品线的限制，控制方式相对简单，但是对表情动作的平滑性影响较大，走线复杂，安装方式限制较多，进而影响头内自由度数量的进一步增加。因此，为了提升表情头性能，需要对电机进行定制化改造或自研驱动方案，其主要难点在于体积上的进一步压缩，包括电机驱动电路和减速箱两部分。

（3）皮肤材料选择与结构设计

表情头面部皮肤设计需要考虑材料性能与结构设计两方面：在皮肤材料性能方面，需要考虑材料的非线性弹性模量、粘弹性、各向异性响应、抗疲劳寿命、环境稳定性、摩擦系数、灰尘吸附性、易成型等。在皮肤结构设计方面，需要考虑模拟人类皮肤的表皮层、角质层、真皮层等等进行多层级微结构设计。

此外，还需要考虑电机驱动结构-材料耦合失效的问题。在多个自由度共同驱动下，易产生应力集中撕裂问题、传感器嵌入问题、被动自由度控制等许多潜在问题，需要厂商根据经验去做调整设计。

表情头面部皮肤会直接影响人们的交互体验，目前不同的厂商有各自的设计方案。硅胶等材料仍旧存在很强的塑料感，容易引发用户交互时的恐怖谷效应，加上自由度及电机的限制，会导致明显的机械感，影响人机交互体验。部分如英国Ameca等公司，则在产品设计上选择表情仿人、外形非仿人的策略，以一定程度避开恐怖谷问题。

2. 软件算法端

（1）表情生成

面部表情对于提高机器人的亲和力和共情能力具有关键作用，表情生成能力是目前厂商的核心技术瓶颈之一。目前市面上大部分表情头产品的表情生成主要依赖于机器人运动学的先验知识与硬编码，即调试者根据经验，通过手工调试的方式去预调多种表情，在机器人需要的时候调用。

但预编程的做法存在明显的局限性：

一方面，真实人脸的表情是多样、生动、具备一定不确定性的，而预编程出的表情数量是有限的且依靠调试者经验的，这会导致机器人表情的生硬呆板。且如果机器人只具备有限数量的表情，用户在使用一段时间后将能敏感察觉到机器人面部神态的有限性、规律性，进而极大地影响交互体验。

另一方面，若采用预编程的做法，在表情头机械结构、制造工艺及外观存在差异时，就需要重新预编程，效率很低。

一致且通用的表情生成方案需要公司具备强大的软件架构能力和表情头研发经验，是目前核心的技术壁垒之一，目前国内外仅有少数几家企业的表情头具备表情自动生成能力。

（2）声唇同步

声唇同步指的是机器人在发出声音（如说话、唱歌、叹气等）时，嘴部要做出同步的、仿生的口型动作，这是具身交互和非具身交互（如手机、音箱）的显著区别之一。只有做好了声唇同步，用户才能获得在场感（sense of presence），即感受到机器人真的与自己处于同一个物理空间中、是一个真实的生命体。

声唇同步的技术在动画、游戏及数字人领域已有成果，但相比于数字人，机器人的嘴部运动具有电机速度不如肌肉、物理传导延迟和柔性形变无法人工建模等特点，使得简单将数字人的口型手工映射为机器人的口型存在运动滞后和形状不一致的问题。因此，实现声唇同步功能的技术难度较大，市面上具备优良声唇同步功能的表情头较少，大部分表情头仍旧依赖预编程，嘴部采用固定的动作循环。

（3）运动控制

通过运动控制驱动电机实现机器人表情动作是一项综合性、跨领域的复杂任务，涉及柔性材料力学特性建模、电机精密控制以及多自由度协同等多个技术难题。

首先，柔性材料的精确建模是重要瓶颈之一。与传统刚性结构机器人可以直接利用Gazebo、Isaac Gym等仿真引擎进行精确的数字仿真训练不同，柔性材料具有显著的非线性变形特性。不同的材料配比和形状厚度都会影响机器人面皮的形变性能，因此每一款面皮都需要单独建模，建模就需要采集形变数据。

其次，机器人面部电机的高精度动态控制也是关键挑战。不同于目前主流机器人通常采用的静态或简单预设动作，自然的动态表情涉及连续且细致的面部动作序列，对运动的平滑性与精准性提出了更高的要求。

此外，多自由度协同控制问题不容忽视。机器人头部通常包含30余个运动自由度，存在许多并联结构，带来运动耦合的问题和同步控制的需求。

重点关注

Ameca由英国EngineeredArts公司于2021年底推出，设计具备性别中立和种族中立美学，配有灰色皮肤，搭载其自研的Tritium操作系统和Mesmer表情系统，能精准模拟困惑、惊讶、微笑等人类微表情，动作响应灵活。2023年起Ameca逐步升级，新增了视觉感知与声音克隆能力，并接入GPT-4和StableDiffusion，可实现绘画、深度对话及情感表达，交互效果得到显著提升。

无论科技（AnyWit Robotics）成立于2023年12月，是国内领先的表情头提供商。公司团队脱胎于中科大机器人实验室，系国际服务机器人两大主流认知智能技术之首的“可佳”与特有体验交互机器人“佳佳”项目组的核心成员，已从事人机情感交互领域研究多年。公司已形成自主创新的高自由度表情驱动系统与多模态交互算法引擎两方面的技术优势，产品在头面部自由度、表情生成、声唇同步等功能上国内领先，国际上可对标行业技术龙头Ameca。

交互模式创新曾颠覆性地开创了PC互联网、移动互联网时代，机器人面部表情交互技术的成熟预计将成为人形机器人未来大范围普及的重要突破口。表情头行业在软硬件方面均具备较高的壁垒，目前行业仍在技术迭代期，预计未来具备电机自研、皮肤设计、表情生成算法、声唇同步算法等全栈能力的企业有望持续引领市场。

本文由：阿呆发布于帅哉网，转载请注明出处：https://www.shuaizai.com/p/1038

人形机器人表情交互：硬件自由度、皮肤材料与算法的三重挑战

为什么要关注人形机器人的交互赛道？