想象一下,你只需要看一眼杯子,机械臂就会自动把它拿起来。再看一眼桌子的另一边,机械臂就会把杯子放到那里。

这波操作不是来自科幻电影,而是来自俄罗斯斯科尔科沃科学技术研究院(Skoltech)最新研发的GazeGrasp系统。
这个系统最大的亮点是:完全不需要动手,仅凭眼神就能精确控制机械臂抓取和放置物体。对于患有严重运动障碍的人群来说,这无疑是一个福音。
值得一提的是,研究团队通过引入"磁吸效应"功能,让系统的操作效率提升了31%。13名测试者的实验数据显示,有了这个功能后,用户锁定目标物体的平均时间从6.77秒缩短到了4.65秒。

▍眼神如何变成机器人的指令
要让机器人"看懂"你的眼神,可不是一件容易的事。GazeGrasp系统巧妙地整合了多项前沿技术:
首先是眼动追踪硬件。研究团队开发了一副特制眼镜,上面装载了ESP32 CAM摄像头模组。这个小巧的设备能够实时捕捉用户的眼球运动,并通过无线网络传输数据。

其次是深度学习算法矩阵。系统采用了谷歌的MediaPipe框架来检测和追踪面部特征点,特别是虹膜的位置。这项技术能够在各种光照条件下稳定工作,确保眼动追踪的准确性。
同时,YOLOv8目标检测模型负责识别工作区域内的物体。它能实时标注出杯子、刀具、瓶子、手机、鼠标等常见物品的位置,并为每个物体生成边界框。
但光有这些还不够。如何让眼动控制变得精确且易用,才是真正的挑战。

研究团队的解决方案是引入"磁吸效应"。当用户的视线接近某个物体的边界框时,光标会自动吸附到物体中心。这就像磁铁吸引铁块一样,大大降低了精确对准的难度。
具体来说,当视线进入物体边界框时,系统会执行以下逻辑:如果在边界框内,鼠标位置会自动调整为物体中心坐标;否则,保持原始视线位置。这个看似简单的功能,却让操作效率提升了近三分之一。
▍从像素到现实:坐标转换的技术细节
让机器人准确抓取物体,还需要解决一个关键问题:如何将屏幕上的像素坐标转换为机器人工作空间中的真实坐标。
GazeGrasp系统采用了精密的坐标转换算法。首先,用户需要进行一次性的校准流程。系统会在屏幕上显示35个预设点,用户依次注视这些点,让系统学习眼球运动与屏幕坐标的对应关系。
研究团队使用了三次多项式回归模型来建立这种映射关系。通过这个模型,系统能够将ESP32 CAM捕捉到的虹膜坐标准确转换为屏幕坐标。
为了消除眼动数据中的噪声,系统还集成了卡尔曼滤波器。这个经典的信号处理算法能够平滑原始的眼动轨迹,让光标移动更加稳定流畅。
最后一步是将检测到的物体中心从相机坐标系转换到机器人基座坐标系。这涉及到相机的内参和外参标定,以及逆投影变换。对于平面工作台,这个过程可以简化为一个单应性矩阵变换。

整个抓取流程是这样的:用户注视目标物体3秒钟,UR10机械臂就会移动到物体位置并用Robotiq 2F-85夹爪抓取;然后用户再注视空白位置3秒钟,机械臂就会把物体放置到那里。全程无需任何手动操作。
▍不只是辅助工具,或将是人机交互的未来
在实验评估中,研究团队邀请了13名年龄在21-37岁之间的志愿者(5名女性,8名男性)参与测试。每位参与者需要完成40次物体定位任务,分别在有无磁吸效应的情况下进行。

统计分析显示,磁吸效应的引入产生了显著的统计学差异(F(1,24)=24.52, p<0.001)。这意味着这项功能确实能够有效提升用户的操作效率。

但GazeGrasp的意义远不止于此。它代表了人机交互的一个创新方向——完全基于自然的生理信号进行控制,无需学习复杂的操作方式。
对于患有肌萎缩侧索硬化症(ALS)、脊髓损伤或其他严重运动障碍的患者来说,这样的系统能够帮助他们重新获得独立生活的能力。想喝水时看一眼水杯,想用手机时看一眼手机,机械臂就会成为他们的"手"。
除了医疗康复领域,这项技术在工业自动化、远程操作、危险环境作业等场景也有广阔的应用前景。比如在核电站维护、深海探测、太空作业等场景中,操作员可以通过眼动控制机器人完成精细操作,同时解放双手进行其他任务。
研究团队表示,未来将继续优化系统,包括提升在复杂环境下的鲁棒性、增加避障功能、扩展可识别物体类型等。随着技术的不断完善,用眼神控制机器人或许会像今天用鼠标键盘一样自然。
论文地址:https://arxiv.org/abs/2501.07255