86.1% 完全自动插入背后，自主肠镜机器人开始学习医生操作

2026-07-031326机器人技术及应用

过去几年，医疗 AI 的叙事重心长期集中在影像识别和辅助诊断上。

AI 可以帮助医生识别病灶、筛查异常、提升阅片效率，但这些任务本质上仍属于视觉层面的判断。对于医疗机器人而言，更难的一步，是从“看见什么”走向“如何操作”。

结肠镜插入正是这一跨越的典型考场。它既需要识别内镜画面中的腔道方向、肠壁和褶皱结构，又需要实时协调推进、回撤、旋转和镜端调角，并在柔性、弯曲、不断变化的腔道环境中维持安全边界。

近期发表于Communications Medicine的自主结肠镜机器人系统 ACRS，正是针对这一问题所展开的研究。它并没有去证明机器人是否可以替代医生完成临床肠镜，而是在受控体外模型中验证了一个核心命题：专家医生的操作数据，能否训练出一个可以自主完成进镜任务的机器人系统。

01.

ACRS 做的不是诊断，而是“进镜”这一步

在结肠镜检查中，插入只是完整流程中的一个环节，但它恰恰是最依赖医生操作经验的部分之一。

完整的结肠镜检查通常包括插入、抵达盲肠、回撤观察、病灶识别，必要时还会进入治疗操作。

ACRS并不试图覆盖整个临床链条，也不涉及息肉识别或病变判断等诊断任务，而是将目光精准锁定在前端的插入环节。它要解决的是一个更接近机器人本体控制的问题：如何把内镜画面中的环境信息，转化为机器人可以执行的连续操作。

02.

从专家操作数据到机器人动作，ACRS 如何完成自主进镜

ACRS的核心思路，并非简单地为内镜加装AI模块，而是先打造一套能够采集、学习和执行专家操作的机器人平台。

这套系统建立在 EOR ver.4 基础上。EOR 本身是一套主从式内镜操作机器人，医生通过主端设备控制从端机器人，由机器人完成结肠镜的插入、回撤、旋转和镜端调角。在升级到 ver.4后，系统已经可以完整记录 16 类操作参数，包括力感、角度、速度、插入长度等，并与高清内镜视频同步保存。

研究团队正是基于这一平台，邀请一名结肠镜操作经验超过10000例的专家医生，在标准化训练模型中完成了100次插入操作，以此形成教学数据。其中，有12次操作数据被用于AI模型的开发。

可见，ACRS 的训练材料不是单纯的内镜图像，而是“图像 + 动作”的对应关系。

在传统医疗 AI 中，图像往往对应一个诊断结果，比如是否存在病灶、病灶位于哪里。但在 ACRS 中，图像对应的是下一步操作：镜头该往哪个方向偏转，镜体该继续推进还是后退修正，调角速度应该快还是慢。对于机器人来说，这类数据比单纯图像更接近真实操作能力。

具体来看，研究团队把 AI 模型拆成了两个功能模块。

YOLOv5负责从内镜画面中判断调角方向。系统会识别画面中的 Hole、Gap、Wall 和不同方向的 Fold 等区域，再根据目标区域在画面中的位置，计算镜端应该朝哪个方向调整。简单说，它解决的是“往哪里看、往哪里转”的问题。

DenseNet-121则用于预测动作状态和速度。它不是判断病灶，而是根据内镜图像及对应操作数据，推断当前应该前进、后退还是停止，以及调角速度属于慢速、正常还是快速。论文中用于训练DenseNet-121的操作数据包括插入长度、左右调角扭矩、上下调角扭矩、镜体旋转扭矩和推进方向反作用力等。

值得注意的是，要实现真正的自主操作，还需依赖闭环执行。ACRS 使用两台计算机分别运行 EOR ver.4 程序和 AI 模型程序。EOR 端发出预测请求后，AI 端获取内镜画面并预测下一步操作，再把指令传回 EOR 系统执行。这个过程每 0.05 秒循环一次，也就是一秒钟大约完成 20 次“看图—判断—执行”的闭环操作。系统设定前进速度设为 6.5 mm/s，后退速度设为 4.0 mm/s，同时设置了 20N 的前后方向力限制和 0.5 N·m 的调角扭矩限制。

由此可见，ACRS 并不是一个只会识别内镜画面的算法模型，而是一套把专家操作数据、视觉识别模型和机器人执行机构连接起来的闭环系统。

它真正要学习的，也不是医学知识本身，而是专家在连续进镜过程中的操作策略：看到什么样的画面，应该采取什么样的动作；遇到什么样的阻挡，应该如何调整方向和力度。对医疗机器人来说，这一步的价值在于把过去依赖医生经验传授的操作能力，转化成了可以被记录、训练和执行的工程流程。

03.

86.1% 完全自动插入，但还不是临床突破

从实验结果看，ACRS 已经在受控模型中跑通了较完整的自主进镜流程。

论文显示，研究团队一共进行了 87 次连续自动插入试验。其中 15 次因为凝胶状润滑剂附着在内镜前端，导致图像无法被系统判读而被排除在外。剩下 72 次试验全部达到 Level 3 及以上自动化水平，其中 62 次达到 Level 4（即完全自动插入），成功率为 86.1%。

此处需明确各分级含义： Level 4，可以理解为系统在医生监督下完成完整插入流程，不需要人工介入；Level 3 则是指系统大部分时间可以自主执行，但在 AI 无法判断下一步动作时，需要人工接管一次，以帮助它通过困难位置。

从时间表现看，ACRS 的 Level 4 平均插入时间为 2.92 分钟，接近受训者的 2.97 分钟，但明显慢于专家医生的 1.43 分钟。

这些数据说明，ACRS 已经不是简单的机械演示。它在标准化训练模型中具备了连续判断和连续执行能力，表现接近初级操作者水平。但它还没有达到专家医生的熟练程度，更不能直接等同于临床可用。

更关键的是，论文采用的是 Pattern 1 训练模型。这是一种高度受控的简化配置，没有明显肠袢形成，也没有完整模拟真实人体中的复杂解剖差异、肠道扭转、蠕动、患者移动、污染物遮挡和真实组织接触。作者也明确强调，这项研究应被理解为工程概念验证，而不是完整临床应用验证。

因此，86.1% 的意义需置于恰当语境下解读。

它证明的是：在简化、受控的体外模型中，ACRS 可以基于专家操作数据完成较高比例的自主插入。而它尚未证明的是：机器人已经能够在真实临床环境中独立完成肠镜检查。

对医疗机器人而言，这一步的真正价值在于“路径跑通”。ACRS 先将最基础的进镜任务拆出来，在低复杂度环境中验证感知、决策和执行闭环，再逐步进入更复杂模型、动物实验和临床研究。这个递进路径，反而比直接宣称临床突破更符合医疗机器人走向应用的真实节奏。

04.

专家经验工程化，医疗机器人走向受监督自治

ACRS 的行业价值，在于它将一类高度依赖医生经验的操作，拆解成了可以记录、训练和执行的工程流程。

过去很多医疗 AI 的核心资产是影像数据。图像被标注成病灶、息肉、异常区域，再训练模型完成识别。但在内镜机器人这里，真正稀缺的不只是图像，而是图像背后的操作过程。医生看到某一类腔道画面后，为什么选择继续推进；遇到褶皱遮挡时，为什么先调整角度；受力变化到什么程度时，应该回撤修正。这些过去依赖临床经验完成的判断，正在被拆解成内镜图像、插入长度、推进速度、旋转角度、调角扭矩、反作用力等可记录参数。

ACRS 学习的不是“这是什么”，而是“看到这种情况应该怎么做”。

从这个角度看，ACRS 更像是一次专家经验工程化的尝试。医生的操作不再只是个人技能，而是可以通过机器人平台沉淀为训练数据，并进一步转化为自动控制策略。

这也指向医疗机器人角色的变化。过去，医疗机器人更多是医生的机械延长线，医生判断，机器人执行。ACRS 探索的则是另一种模式：医生提供专家数据，系统在受控任务中自主执行，医生保留监督、接管和安全把关的角色。

这不是“去医生化”，而是更清晰地划分人机协作的边界。

精彩推荐

平均年龄不到25岁，清华博士团队凭什么让雷军独家押注？

为优必选、荣耀、智元代工，这家营收破500亿制造巨头即将赴港IPO

成立仅1年拿下数亿融资，深度机智凭什么让十余家机构集体下注？

当芯片长出手脚，3274亿市值的巨头快速切入具身智能

北大仉尚航团队提出 LaST-R1框架，机器人首次学会"边想边做"！

精彩文章

扫码手机阅读

86.1% 完全自动插入背后，自主肠镜机器人开始学习医生操作

精彩推荐

关于我们

友情链接

商务合作