在多模态数据集中,视触觉信息因其丰富的触觉信息可视化而在近年受到研究界的青睐。近期,方斌教授团队联合张建伟院士、孙富春教授、韩文娟副教授等发表的 Information Fusion (1区,影响因子14.8)综述论文,深入探讨了视触觉数据收集和生成方法,讨论了基于物理和基于学习型两类视触觉传感器生成方法,总结了结合触觉信息的多模态数据集的前沿应用,讨论了发展的挑战和未来方向。旨在促进融合视触觉信息的多模态数据集的广泛开发和应用。

https://www.sciencedirect.com/science/article/pii/S1566253525002350
视触觉传感器是一款利用摄像头捕捉弹性体变形的光学传感器,相较于其他类型的触觉传感器(压阻式、电容式、磁性等),可以生成高分辨率的视触觉图像。考虑到视触觉数据对多模态数据集的意义,本文总结了开发低成本高效的视触觉数据的生成方法以扩展多模态数据集。首先,介绍视触觉传感器的原理和发展,并系统概述现有的视触觉数据集。然后,概述了基于物理的视触觉数据生成方法,包括弹性体模拟、光学模拟和标记物运动模拟。在此基础上,借助神经网络更强的鲁棒性,基于学习的视触觉数据生成方法得以应用,包括跨模态生成与模拟到真实视触觉数据生成。最后,简述了视触觉数据的评价规则,描述了现阶段数据集的应用,分析了困难和挑战,并提出了未来的发展方向。

这篇工作中将目前学术界的视触觉数据生成技术按照几个大类进行了分类。
1.视触觉传感器和数据集
视触觉传感器的原理是利用相机接收表面形变信息来实现对外界感知的。数据集分为三种:真实视触觉数据集、模拟视触觉数据集和真实模拟混合视触觉数据集。

论文中对目前出现的数据集进行了总结。(具体文献见论文原文)

2.基于物理的视触觉数据生成
物理视触觉传感器主要包括三个模块:弹性体模拟、光学模拟和标记物运动模拟。
弹性体模拟是利用硅胶的物理特性,基于接触深度、有限元法(FEM)和材料点法(MPM)等预测接触条件下弹性体的变形;光学模拟发生在弹性体模拟之后,采取基于Phong模型或路径追踪的光学仿真,模拟摄像头如何捕捉弹性体的变形并将其呈现为图像,此步骤与弹性体模拟是顺序进行的;标记物运动模拟,利用线性位移关系和相机模型,相比光学模拟避免了复杂的光学建模过程,提高了计算效率和真实感。

3.基于学习的视触觉数据生成
神经网络能够高精度近似任何关系已被证实,研究人员将其应用在视触觉数据生成上,主要采取两个方法:跨模态视触觉数据生成和从模拟到真实的视触觉数据生成。与基于物理的方法相比,基于学习的方法显著提高了生成效率和真实度,但是无法确保不同传感器类型的鲁棒性。

4.评价规则
论文中建立了更标准化的评估标准,使后续采集的数据参数对齐,提升数据质量,并对基于物理和基于学习的两类视触觉图像评估方法进行了总结。(具体文献见论文原文)

5.视触觉数据集的应用
第一,研究人员将视觉和音频等不同模态与语言模态对齐,促进了大型视觉-语言模型的创建,再将触觉信息捕捉并以图像形式出现,使得触觉数据可以与大型视觉-语言模型对齐融合,这为多模态表示带来了新的发展。第二,三维重建是计算机视觉中的经典任务,与视觉传感器提供的RGB和深度信息相比,视触觉传感器提供的深度信息能够直接应用基于深度的三维重建方法,克服了生成逼真几何模型细节方面的局限性。第三,视触觉模式与视觉模式对齐可以增强机器人处理大型模型时的鲁棒性能力。
