ICRA2026北邮本科生一作提出TransTac传感器-透明触觉+视觉融合!

2026-06-081689机器人技术及应用

  • 当机器人的“眼睛”和“皮肤”合二为一,近接触感知盲区被彻底打通

 

在刚刚落幕的机器人顶会ICRA 2026上,北京邮电大学DeepTouch课题组的大三本科生杨灵悦为第一作者的研究论文《TransTac: Visuo-Tactile Modality Transition via Ultraviolet-Encoded Transparent Elastomers》被大会录用,并在人机交互论坛现场进行海报展示。

这篇论文提出了一个名为TransTac的新型视触觉传感器,首次在单个紧凑设备中同时实现了透明视觉观测高精度触觉重建。它用紫外编码标记、双目立体匹配和RGB-D融合,彻底打通了机器人从“远场观察”到“近场接触”的感知鸿沟。

痛点:为什么机器人“快碰到物体时”反而看不清?

目前的机器人感知系统存在一个尴尬的断层:

 

  • RGB-D相机(如Intel RealSense)虽然能提供全局深度,但在物体过于靠近(通常小于9cm)时,深度数据急剧退化,甚至完全失效;
  • 传统视触觉传感器(如GelSight)虽然能重建接触形变,但它们的弹性体涂层是不透明的,遮挡了视觉观察,且只能感知接触界面,无法看到凹陷或非接触区域。

 

这就导致机器人在即将接触物体的关键瞬间,既看不清物体表面,也摸不着完整几何——感知上出现了一个“近接触盲区”

TransTac的目标正是填补这一空白:让传感器在未接触时保持透明,在接触时同时记录触觉形变和视觉外观



 

TransTac 核心创新:紫外编码透明弹性体 + 双目立体匹配

1. 透明弹性体 + 紫外反射标记

传统的视触觉传感器使用不透明的涂层层(如铝粉),TransTac反其道而行:采用透明硅胶弹性体,内部嵌入紫外反射荧光标记。日常白光照明下,传感器完全透明,相机可以透视看到背后的物体;当切换到紫外光时,标记点清晰显现,用于触觉形变跟踪。一个传感器,两套照明模式,时间复用,互不干扰。

2. 轻量化标记检测网络

由于标记点密集、半透明、且会在接触中发生形变和遮挡,传统的斑点检测经常漏检。团队设计了一个单阶段无锚点检测网络,结合高斯中心热图和边界框回归,配合ByteTrack跟踪算法,即使在滑动、滚动、大形变下也能稳定追踪每个标记点的位移。



 

3. 先验引导的Delaunay立体匹配

双目相机看到左右两个视图,如何将左图的标记点与右图的标记点一一对应?这是一个立体匹配难题——标记点外观几乎一样,且分布密集。

论文提出了一种先验引导的Delaunay匹配算法

 

  • 先用极线约束得到初始候选匹配;
  • 对左右图分别构建Delaunay三角网,用三角形边长描述子进行相似性匹配,找到可靠的“锚点”;
  • 从锚点向相邻三角形传播对应关系,保持局部拓扑结构。

 

相比全局匹配,该方法将正确匹配数量提升了约21%(从74.9个提高到90.8个)。

4. RGB-D融合与尺度优化

深度估计模型(如FoundationStereo)可以输出稠密深度图,但可能存在尺度偏差。TransTac利用稀疏三角化标记点提供的可靠真实深度,通过RANSAC和Umeyama对齐,对整个稠密深度图进行相似变换校正,最终得到度量准确的接触区域深度图。

实验表明,即使在RGB-D几乎失效的近接触距离(<9cm),TransTac的深度对齐误差仍稳定在2.44mm左右,为机器人提供了连续可靠的几何观测。

实验结果:透明触觉图像竟能被视觉语言模型“看懂”

论文设计了四个维度的评测,其中最惊艳的结果来自语义可识别性实验

✅ 零样本识别准确率高达83.3%

团队选取了6类物体(鸡蛋、硬币、电池、乐高块、纽扣、玻璃珠),分别用GelSight Mini9DTactTransTac采集触觉图像,然后用视觉语言模型(Qwen-VLM、ChatGPT-VLM)和开放词汇检测器(YOLO-World、YOLO-E)进行零样本识别。

结果:

 

  • ChatGPT-VLM在TransTac图像上的识别准确率为83.3%,而GelSight仅30.2%,9DTact仅12.5%。
  • DINOv2特征中心的类间相似度:GelSight约0.236,9DTact约0.202,而TransTac高达0.774,接近自然图像的表现。

 

这意味着:TransTac采集的触觉图像保留了丰富的视觉语义,可以直接被预训练的视觉-语言模型理解,而传统不透明触觉传感器的输出则与自然图像特征严重偏离。

✅ 近接触几何恢复:填补RGB-D盲区

当物体距离传感器小于9cm时,RealSense D405的有效深度像素比例急剧下降至10%以下。而TransTac通过标记点三角化和RGB-D融合,仍能稳定输出近接触区域的稀疏深度,并校正稠密深度图的尺度。

✅ 标记点跟踪稳定性

在滑动、滚动、大形变场景下,基于深度学习的检测+ByteTrack跟踪明显优于传统光流法,避免了漂移和身份交换。



 

本科生一作,北邮科研育人的亮眼答卷

值得特别一提的是,论文第一作者杨灵悦方斌教授指导的本科三年级学生。从课题构思、实验设计、传感器搭建到论文撰写,她在导师的悉心指导下独立完成了核心研究工作,并最终站上ICRA的国际舞台进行海报展示。这不仅是对学生个人科研能力的肯定,更体现了北邮在本科生早期科研训练上的深厚积累——让本科生从大二、大三就进入实验室,接触前沿课题,挑战顶级会议。



 

开源地址

论文中所有代码和硬件设计均已开源,欢迎访问GitHub仓库:
https://github.com/87361/TransTac

来源:CAAl认知系统与信息处理专委会