谈及具身智能,业界习惯于聚焦大模型的规划能力和机械臂的执行精度,却往往低估了人类手部感知这一更基础、也更复杂的问题。
无论是拿起一枚硬币、拧动一颗螺丝,还是快速敲击键盘,你的手正以人类进化数百万年打磨出的方式在运作——二十七块骨骼、数十条肌腱、数百个神经末梢密切协同,在毫秒级的时间窗口内完成复杂的空间编排。
对人类而言,这是无意识的本能;对机器人而言,这是具身智能领域数年悬而未决的核心难题。
要让机器人学会这些灵巧操作,最直观的思路莫过于“从人类示范中学习”。无论是模仿学习、大规模视频预训练,还是跨本体的动作迁移,这些范式的共同前提是能够拿到足够准确、足够丰富的人手操作数据。换句话说,机器人灵巧操作能力的上限,很大程度上取决于训练数据中人手被记录得有多准确、多完整。
而手部姿态感知,便是将人手的真实数据“记录”下来的第一步,也是具身智能走向真实世界时看似基础、却始终难解的关卡。
那么,靠什么来感知一只正在操作的手?
从技术路径上看,当前业界主流的裸手感知方案无外乎两种。其一是基于计算机视觉,通过摄像头图像推断手部三维姿态;其二是基于表面肌电信号(sEMG),利用腕带采集前臂肌肉激活信号进行手势解码。
两派各执一词,又有各自无法回避的阿喀琉斯之蹱。更深层的困境在于,行业内没有任何一个公开数据集能够在同一时间轴上同步这两种模态、并在统一协议下让它们正面较量。缺少统一的基准测试,两条路线的真实差距无法评估,手部感知的核心命题也无从验证。
而现在,这一空白,被清华大学自动化系与手亿科技联合填补上了。
01.
EgoEMG:一个填补空白的基础设施级数据集
今年5月,一篇题为《EgoEMG: A Multimodal Egocentric Dataset with Bilateral EMG and Vision for Hand Pose Estimation》的论文在arXiv公开。
论文的第一作者席子恒是清华大学自动化系博士生、手亿科技的核心算法实习生,也是手亿腕带关键性技术 WristPP(CHI 2026)的第一作者;通讯作者是清华大学自动化系长聘副教授冯建江。
EgoEMG数据集名称来自Egocentric(第一视角)与EMG(肌电)的组合,精准描述了它最核心的创新。它是目前业界首个同时提供肌电、视觉、深度、运动四种模态、且全部时间同步的公开手部姿态数据集,硬指标如下:
![]()
在标注质量上,团队设计了一套基于学习的markers2mano流水线,将运动捕捉标记点位置转换为MANO手部模型参数。相比EMG2Pose数据集(Meta于2024年发布的规模最大的腕带EMG手部姿态估计数据集)采用的逐帧逆运动学求解器(报告无效帧率12.7%),EgoEMG的学习式重建将无效帧率降至3.6%,整体降幅超过3.5倍;重建后MANO网格与标记点的平均对齐误差为4.3毫米,精度可与公开InterHand2.6M子集媲美。
由此来看,EgoEMG的独特性体现在三个互相支撑的维度。它是首个同时提供双侧腕带EMG、IMU、第一人称RGB、外部RGB-D、双手MANO标注、腕关节角度与逐帧手势标签的统一数据集;是首个在统一关节角预测目标与统一数据集泛化类型划分(跨手势、跨用户、组合)下,定义EMG→姿态、视觉→姿态、EMG+视觉融合三任务基准的工作;更是首次在统一基准下量化证明,在手部姿态估计上,纯视觉误差仅为纯肌电的约40%。
![]()
EgoEMG的数据采集系统配置:包括双侧肌电腕带、头戴式第一视角RGB相机、外置ZED 2i RGB-D相机以及用于姿态标注的手部标记光学运动捕捉系统
横向对比来看更能凸显EgoEMG的定位。此前规模最大的同类工作EMG2Pose(193人,双边EMG+动捕)完全没有同步视觉;而InterHand2.6M、HOT3D、H2O等主流视觉手部基准又完全不包含EMG。
EgoEMG是首次架在这两大阵营之间的桥梁——同一时间轴,同一只手腕,同一套评估协议。
![]()
EgoEMG的代表性同步数据样本:每行(3.9秒时间窗)分别显示GT手部姿势、双侧肌电信号、片段中心帧的第一视角RGB图像以及外置RGB-D图像
02.
技术内核:EMGFormer与残差融合架构如何让多模态“真融合”
高质量的数据集只是基础,研究团队同时给出了覆盖三任务维度的基线模型,把“多模态手势估计”从概念变成了可复现的工程范式。
针对EMG→姿态任务,团队设计了EMGFormer架构,核心设计哲学是将语音识别领域成熟的时序卷积(TDS)迁移到肌电信号处理上。
![]()
用于EMG→姿态任务的EMGFormer架构:双侧肌电信号由TDS时序卷积前端进行编码,经过搭载旋转位置编码(RoPE)的Transformer解码后,最终映射为包含腕关节活动范围在内的关节角度数据
具体而言,TDS前端将每条2 kHz、每窗7790个采样点的原始EMG信号压缩成约37 Hz的256维特征序列,再经配有旋转位置编码(RoPE)的Transformer解码器建模长程时序依赖关系,最终回归22自由度关节角向量。模型提供Small(3.5M参数)、Medium(6.6M参数)、Large(16.3M参数)三种规模,S版本兼顾效率(仅为Meta公司vemg2pose基线模型参数量的58%),L版本追求最佳绝对精度。
在EMG2Pose公开基准最难泛化子集(user+stage)上,EMGFormer-S将误差从vemg2pose基线模型[Salter et al.,2024](15.8°±1.4°)降至12.34°±1.07°,提升幅度达22%;在stage划分上,提升幅度达到39%。这意味着,EgoEMG不仅提出了新数据集,还顺手刷新了纯EMG手部状态估计的当前最优水平。
针对EMG+视觉融合任务,论文提出了残差融合架构,这是EgoEMG在方法设计上最具启发性的贡献之一。
![]()
EMG+视觉融合的基线模型:视觉分支预测yv;EMG分支预测残差∆yemg(分支输出层采用零初始化)
这一设计体现了对“模态互补”的深刻理解。视觉在可见区域已经是强信号,如果直接将肌电特征与视觉特征拼接,模型会面临两个强信号竞争的训练困难。残差设计则让模型从强视觉基线出发,肌电分支只需学习“视觉看不到的那一部分”——遮挡时的手指弯曲状态、肌肉真实发力的细微差异,而无需重新学习视觉已经掌握的全局构型信息。残差头最后一层以零值初始化,确保训练起点等价于纯视觉预测,这既保证了训练稳定,也使肌电对最终输出的贡献可以被独立衡量。这就如同自动驾驶的定位体系:GPS提供全局绝对位置,视觉惯导系统则在卫星信号丢失场景下,接续完成定位。
实验结果显示,以ResNet-18为视觉主干的融合模型,平均关节角误差从6.1°收窄至5.6°;以ViT-S为主干的融合模型同样获得稳定提升——在所有轻量级视觉基线、所有泛化子集下,融合模型均稳定优于对应的纯视觉方案,充分验证了残差设计的合理性与普适性。
![]()
在三种对于视觉不利的情况下,EMG+视觉的融合方案显著降低了姿态估计误差
03.
硬数据裁决:纯肌电为何撑不起精准的手部重建?
EgoEMG最具产业价值的贡献之一,是它用统一基准第一次让视觉、肌电、融合三种方案正面较量,令此前各说各话的技术路线之争有了可量化的裁判结果。
![]()
通过这组数据,研究团队得出了三个关键结论。其一,纯肌电的误差,是纯视觉的2.4倍以上,且这种精度差距无法仅靠模型优化来弥补。即使是论文里全新设计、比上一代SOTA提升22%的EMGFormer,在绝对精度上与最轻量的纯视觉基线相比仍有数倍差距——这不是工程问题,而是信号本身信息密度的客观限制。
其二,跨用户泛化是纯肌电的结构性死穴。论文明确指出,跨用户泛化仍是肌电手部姿态估计的核心挑战。从实验数据来看,面对未见过的手势时,肌电模型误差增长尚且平缓;但一旦面对未见过的用户,误差便会显著攀升。甚至换个手腕、换个佩戴位置、手腕出汗了,纯肌电模型就得重新校准。这是纯肌电方案走向规模化落地时最大的结构性障碍,也是穿戴性产品最难以承受的代价。
其三,融合方案才是正解。当肌电作为视觉的补充参与融合,整体精度优于纯视觉轻量基线,证明了融合带来的增益是真实且稳定的。最优解既不是纯视觉,更不是纯肌电,而是以视觉为主干、多模态传感为辅的融合方案。
需要特别强调的是,EgoEMG的结论绝非全盘否定肌电的价值。恰恰相反,它精确定位了肌电的不可替代之处——补充视觉所不能及的盲区,而非替代视觉成为主力。
对于押注“以纯肌电为核心的技术路线”的声音,实验数据以沉默而有力的方式给出了回应。视觉是手部感知当之无愧的主力,多模态融合是扩展其能力边界的正确路径——这也正是手亿技术方案的理论与实践依据。
04.
从论文到产品:清华×手亿的产学研闭环
EgoEMG的诞生并非单纯的学术探索,它背后站着一个正在将论文方法转化为现实产品的产业力量——手亿科技。
手亿科技的定位清晰而坚定,既是具身智能时代的数据与模型基础设施提供商,也是视觉+多模态融合智能腕带的开创者,其背后拥有清华自动化系20余年在手部感知方向积累的技术储备。此次EgoEMG数据集正是自动化系团队与手亿科技深度合作的产物。论文第一作者席子恒不仅是手亿科技的算法实习生,同时也是清华大学自动化系博士生。
这一细节折射出手亿科技的独特优势:将顶尖高校的学术前沿与产业的工程化能力无缝衔接。清华实验室的博士生在企业实习期间完成具有实际需求驱动的基础研究,研究成果再进一步转化为企业产品的技术底座。
手亿当前一代的核心产品方向是视觉与IMU融合的毫米级三维手部重建智能腕带(基于FineType和WristPP技术),而EgoEMG正是把这一技术路线从“视觉+IMU”扩展到“视觉+IMU+肌电”的完整多模态感知——用学术研究的严谨基准,论证了公司产品技术路线的正确性。
可以说,这次EgoEMG的发布,既是极具代表性的学术成果,也向整个行业传递了明确的技术方向。当一篇论文能够为一家公司的技术路线提供系统性实证,学术研究与产业落地之间的距离,也许从未像今天这样短过。
学术上验证的方法,正在变成手亿腕带里跑的代码。
05.
结语与未来:手部感知的路线图已然显现
具身智能正在从语言模型的云端下沉到物理世界的末端执行器,而手部感知正是让机器掌握物理世界交互技能的关键语料。
EgoEMG数据集及其基准测试的发布,是一次对技术路线纷争的及时“正本清源”:用41人、10小时、多模态同步的硬核数据,证明纯肌电单模态难以独立支撑高精度手部感知,而“视觉为主、多模态融合”是当前阶段最具前景的实现路径。
对于手亿科技而言,这更是一次学术品牌与技术定调的宣言。其既与纯肌电竞品划清了界限,也与纯视觉腕式相机拉开了差异。
在具身智能爆发的黎明,这家由清华技术深度背书的公司,正试图用科研开路,用数据说话,用产品落地。
参考文献
Ziheng Xi, et al. EgoEMG: A Multimodal Egocentric Dataset with Bilateral EMG and Vision for Hand Pose Estimation. CoRR abs/2605.05712 (2026)
EgoEGM GitHub网址: https://github.com/zhenqis123/EgoEMG
Ziheng Xi, et al. WristPP: A Wrist-Worn System for Hand Pose and Pressure Estimation. CHI 2026
Sasha Salter, et al. emg2pose: A Large and Diverse Benchmark for Surface Electromyographic Hand Pose Estimation. NeurIPS 2024
Chentao Li, et al. FineType: Fine-grained Tapping Gesture Recognition for Text Entry. CHI 2025