86.1% 完全自动插入背后,自主肠镜机器人开始学习医生操作

2026-07-031326机器人技术及应用

过去几年,医疗 AI 的叙事重心长期集中在影像识别和辅助诊断上。

AI 可以帮助医生识别病灶、筛查异常、提升阅片效率,但这些任务本质上仍属于视觉层面的判断。对于医疗机器人而言,更难的一步,是从“看见什么”走向“如何操作”。

结肠镜插入正是这一跨越的典型考场。它既需要识别内镜画面中的腔道方向、肠壁和褶皱结构,又需要实时协调推进、回撤、旋转和镜端调角,并在柔性、弯曲、不断变化的腔道环境中维持安全边界。



 

近期发表于Communications Medicine的自主结肠镜机器人系统 ACRS,正是针对这一问题所展开的研究。它并没有去证明机器人是否可以替代医生完成临床肠镜,而是在受控体外模型中验证了一个核心命题:专家医生的操作数据,能否训练出一个可以自主完成进镜任务的机器人系统。

01.

ACRS 做的不是诊断,而是“进镜”这一步

在结肠镜检查中,插入只是完整流程中的一个环节,但它恰恰是最依赖医生操作经验的部分之一。



 

完整的结肠镜检查通常包括插入、抵达盲肠、回撤观察、病灶识别,必要时还会进入治疗操作。

ACRS并不试图覆盖整个临床链条,也不涉及息肉识别或病变判断等诊断任务,而是将目光精准锁定在前端的插入环节。它要解决的是一个更接近机器人本体控制的问题:如何把内镜画面中的环境信息,转化为机器人可以执行的连续操作。

02.

从专家操作数据到机器人动作,ACRS 如何完成自主进镜

ACRS的核心思路,并非简单地为内镜加装AI模块,而是先打造一套能够采集、学习和执行专家操作的机器人平台。



 

这套系统建立在 EOR ver.4 基础上。EOR 本身是一套主从式内镜操作机器人,医生通过主端设备控制从端机器人,由机器人完成结肠镜的插入、回撤、旋转和镜端调角。在升级到 ver.4后,系统已经可以完整记录 16 类操作参数,包括力感、角度、速度、插入长度等,并与高清内镜视频同步保存。

研究团队正是基于这一平台,邀请一名结肠镜操作经验超过10000例的专家医生,在标准化训练模型中完成了100次插入操作,以此形成教学数据。其中,有12次操作数据被用于AI模型的开发。

可见,ACRS 的训练材料不是单纯的内镜图像,而是“图像 + 动作”的对应关系。

在传统医疗 AI 中,图像往往对应一个诊断结果,比如是否存在病灶、病灶位于哪里。但在 ACRS 中,图像对应的是下一步操作:镜头该往哪个方向偏转,镜体该继续推进还是后退修正,调角速度应该快还是慢。对于机器人来说,这类数据比单纯图像更接近真实操作能力。

具体来看,研究团队把 AI 模型拆成了两个功能模块。

YOLOv5负责从内镜画面中判断调角方向。系统会识别画面中的 Hole、Gap、Wall 和不同方向的 Fold 等区域,再根据目标区域在画面中的位置,计算镜端应该朝哪个方向调整。简单说,它解决的是“往哪里看、往哪里转”的问题。



 

DenseNet-121则用于预测动作状态和速度。它不是判断病灶,而是根据内镜图像及对应操作数据,推断当前应该前进、后退还是停止,以及调角速度属于慢速、正常还是快速。论文中用于训练DenseNet-121的操作数据包括插入长度、左右调角扭矩、上下调角扭矩、镜体旋转扭矩和推进方向反作用力等。



 

值得注意的是,要实现真正的自主操作,还需依赖闭环执行。ACRS 使用两台计算机分别运行 EOR ver.4 程序和 AI 模型程序。EOR 端发出预测请求后,AI 端获取内镜画面并预测下一步操作,再把指令传回 EOR 系统执行。这个过程每 0.05 秒循环一次,也就是一秒钟大约完成 20 次“看图—判断—执行”的闭环操作。系统设定前进速度设为 6.5 mm/s,后退速度设为 4.0 mm/s,同时设置了 20N 的前后方向力限制和 0.5 N·m 的调角扭矩限制。

由此可见,ACRS 并不是一个只会识别内镜画面的算法模型,而是一套把专家操作数据、视觉识别模型和机器人执行机构连接起来的闭环系统。

它真正要学习的,也不是医学知识本身,而是专家在连续进镜过程中的操作策略:看到什么样的画面,应该采取什么样的动作;遇到什么样的阻挡,应该如何调整方向和力度。对医疗机器人来说,这一步的价值在于把过去依赖医生经验传授的操作能力,转化成了可以被记录、训练和执行的工程流程。

03.

86.1% 完全自动插入,但还不是临床突破

从实验结果看,ACRS 已经在受控模型中跑通了较完整的自主进镜流程。



 

论文显示,研究团队一共进行了 87 次连续自动插入试验。其中 15 次因为凝胶状润滑剂附着在内镜前端,导致图像无法被系统判读而被排除在外。剩下 72 次试验全部达到 Level 3 及以上自动化水平,其中 62 次达到 Level 4(即完全自动插入),成功率为 86.1%。

此处需明确各分级含义: Level 4,可以理解为系统在医生监督下完成完整插入流程,不需要人工介入;Level 3 则是指系统大部分时间可以自主执行,但在 AI 无法判断下一步动作时,需要人工接管一次,以帮助它通过困难位置。

从时间表现看,ACRS 的 Level 4 平均插入时间为 2.92 分钟,接近受训者的 2.97 分钟,但明显慢于专家医生的 1.43 分钟。

这些数据说明,ACRS 已经不是简单的机械演示。它在标准化训练模型中具备了连续判断和连续执行能力,表现接近初级操作者水平。但它还没有达到专家医生的熟练程度,更不能直接等同于临床可用。

更关键的是,论文采用的是 Pattern 1 训练模型。这是一种高度受控的简化配置,没有明显肠袢形成,也没有完整模拟真实人体中的复杂解剖差异、肠道扭转、蠕动、患者移动、污染物遮挡和真实组织接触。作者也明确强调,这项研究应被理解为工程概念验证,而不是完整临床应用验证。

因此,86.1% 的意义需置于恰当语境下解读。

它证明的是:在简化、受控的体外模型中,ACRS 可以基于专家操作数据完成较高比例的自主插入。而它尚未证明的是:机器人已经能够在真实临床环境中独立完成肠镜检查。

对医疗机器人而言,这一步的真正价值在于“路径跑通”。ACRS 先将最基础的进镜任务拆出来,在低复杂度环境中验证感知、决策和执行闭环,再逐步进入更复杂模型、动物实验和临床研究。这个递进路径,反而比直接宣称临床突破更符合医疗机器人走向应用的真实节奏。

04.

专家经验工程化,医疗机器人走向受监督自治

ACRS 的行业价值,在于它将一类高度依赖医生经验的操作,拆解成了可以记录、训练和执行的工程流程。

过去很多医疗 AI 的核心资产是影像数据。图像被标注成病灶、息肉、异常区域,再训练模型完成识别。但在内镜机器人这里,真正稀缺的不只是图像,而是图像背后的操作过程。医生看到某一类腔道画面后,为什么选择继续推进;遇到褶皱遮挡时,为什么先调整角度;受力变化到什么程度时,应该回撤修正。这些过去依赖临床经验完成的判断,正在被拆解成内镜图像、插入长度、推进速度、旋转角度、调角扭矩、反作用力等可记录参数。

ACRS 学习的不是“这是什么”,而是“看到这种情况应该怎么做”。

从这个角度看,ACRS 更像是一次专家经验工程化的尝试。医生的操作不再只是个人技能,而是可以通过机器人平台沉淀为训练数据,并进一步转化为自动控制策略。

这也指向医疗机器人角色的变化。过去,医疗机器人更多是医生的机械延长线,医生判断,机器人执行。ACRS 探索的则是另一种模式:医生提供专家数据,系统在受控任务中自主执行,医生保留监督、接管和安全把关的角色。

这不是“去医生化”,而是更清晰地划分人机协作的边界。