扫一扫 添加小助手
服务热线
13818320332
扫一扫 关注我们
《柳叶刀-胃肠病学和肝脏病学》(The Lancet Gastroenterology & Hepatology)今日在线发表两个试验,都是探究利用人工智能改善腺瘤检出率(Adenoma Detection Rate, ADR)。腺瘤检出率是结肠镜检的主要质量指标,与结肠镜检后结直肠癌发生率及其相关死亡率成反比。许多研究都关注结肠镜检中越来越高的腺瘤检出率,但是多达27%的息肉由于各种原因而未被检出。《柳叶刀-胃肠病学和肝脏病学》主编Rob Brierley对两个作者团队分别进行了采访。
现任武汉大学人民医院消化内科主任,中华消化内镜学会常务委员,中华医学会消化内镜学会大数据协作组组长,湖北省消化内镜质量控制中心主任,湖北省消化内镜学会候任主委等。于教授在德国杜塞尔多夫大学医学院获博士学位,随后于德国波鸿大学医学院、美国Scripps研究院进行博士后研究。在国内外专业学术期刊发表论文303篇,其中以第一作者或通讯作者发表SCI 论文109篇,在The Lancet Gastroen&Hepato 等国际权威SCI期刊发表论文数篇。
参考文献:
[1] Zhao S, Wang S, Pan P, et al. Magnitude, risk factors, and factors associated with adenoma miss rate of tandem colonoscopy: a systematic review and meta-analysis. Gastroenterology 2019; 156: 1661–74.
[2] Jie Zhou, Lianlian Wu, Xinyue Wan et al. A novel artificial intelligence system for the assessment of bowel preparation (with video). Gastrointest Endosc, 2019; https://doi.org/10.1016/j.gie.2019.11.026.
作者团队介绍
1. 如果一例患者没有息肉,且全程AI系统没有误报或“假系统”没有报告,那么操作医生不可能察觉有两个不同的系统。
2. 如果一例患者没有息肉,但AI出现了误报或者“假系统”有所报告,经过观察者提示出来了,那么操作医生也不可能分辨出,观察者的提示究竟是AI组的误报,还是“假系统”的报告。
3. 如果一例患者的某个息肉,是操作医生首先看到,此时观察者并不会做出提示,那么操作医生同样不可能察觉有两个不同的系统。
4. 如果一例患者的某个息肉,操作医生没有看到,而是在即将消失在视野外时经观察者提示才发现,那么操作医生会认为这是AI系统的一次正确提示,也不会察觉有“假系统”的存在。
参考文献:
[1] Wang P, Xiao X, Glissen Brown JR, et al. Development and validation of a deep-learning algorithm for the detection ofpolyps during colonoscopy. Nature Biomedical Engineering 2018;(2):741–748
[2] Wang P, Berzin TM, Glissen Brown JR, et al. Real-time automatic detection system increases colonoscopic polyp andadenoma detection rates: a prospective randomised controlled study. 2019;68(10):1813-1819
作者采访 柳叶刀-胃肠病学和肝脏病学:本研究探索了为标准结肠镜检增加电脑辅助检测(CADe)对ADR的效果。请解释一下设计CADe系统的目标是什么,这个系统是如何开发的,及其如何帮助结肠镜检医师改善检查结果? 这个AI系统设计的目标是,在最新的人工智能算法的帮助下,系统可以在结肠镜检查的过程中实时分析视频的每一帧图像,识别并提示存在的任何形态的结肠息肉,包括一些非息肉样的侧向发育性肿瘤。 这个系统可以通过增强现实的方法,在结肠镜检查中同步在内镜显示屏中以“中空的蓝色方框”和“报警音”提示内镜医生,这个系统将是内镜医生的“第二双眼”,克服人眼的局限性,帮助医生减少因为注意力分散、经验不足或疲劳等原因导致的漏诊,进而降低间期结肠癌的发生风险。 这个系统是在医生和计算机专家的合作下开发的。首先,医生尽可能的收集各种形态和不同肠道环境下的息肉,对目标样本和需要鉴别的负样本进行标记;之后,计算机专家使用这些训练样本开发模型,再和医生一起反复测试模型的效果,分析并解决模型开发和一些概念逻辑上的问题;最终得到了一个性能优秀的模型。我们随后进行了大规模的验证研究,共使用了4个验证集,包括两个图像验证集和两个真实视频验证集。在图像验证集中,我们首先使用了一个大样本的、从连续的肠镜患者中得到的真实图像集,另外还使用了一个国外公开的测试数据集以获取外部的真实性验证。视频测试分别对有息肉的视频片段进行敏感性验证,以及对无删减的全程无息肉检出的结肠镜视频进行特异性验证。经过上述严谨的验证,得到了自发表当时有文献记载的最高的特异性、敏感性结果,ROC曲线下面积达到0.984,同时达到了实时的处理速度。这一研究已经于2018年发表。[1] 柳叶刀-胃肠病学和肝脏病学:本研究的设计相对“复杂”,目的是保证患者和内镜医师都无法意识到他们使用的是CADe辅助结肠镜检还是传统的结肠镜检。这一点为什么是必要的?与非盲研究设计相比,这样做有什么优点? 在结肠镜检查中,影响腺瘤检出率这个核心临床目标的因素非常多,包括病人的人口学特征(诸如年龄、性别、BMI),患结肠腺瘤的风险因素、保护因素,肠道准备情况,以及医生操作的因素(如退镜时间)等。因此,如果要严谨的验证作为一种干预措施的AI系统能否有效的提高腺瘤检出率,大样本的前瞻性RCT研究是首选设计方案。此前,我们进行了上千病例的前瞻性RCT研究,有效控制了病人患腺瘤的风险因素和包含退镜时间在内的其它因素,这作为全球首个AI辅助诊断系统的RCT于2019年发表。[2] 然而,这个研究并没有对操作医生进行盲法,因此无法控制操作医生的主观性偏倚的可能性。虽然干预组和对照组扣除活检时间的纯退镜观察时间是一致的,但非盲法的研究始终不能确保最小化主观性偏倚对结果的影响,例如在AI辅助组,某些医生可能会更认真的进行检查,导致结果偏高;某些医生也可能对AI有依赖心理,导致操作质量下降,进而引起结果偏低。所以,对操作医生进行盲法是提升RCT研究质量和结果参考价值的重要举措,这样可以最大限度的避免主观性偏倚。从以往的经验来看,干预方式是需要医生直接参与的研究,往往很难实现盲法。 我们团队与哈佛医学院Tyler Berzin教授团队进行多次讨论,共同分析了这类研究的特点,发现如果设计一个“假系统”(这个系统可以产生和AI系统一样的报警框和报警音,但都报告在形似息肉的非息肉区域,这些形似息肉的非息肉区域恰好也是AI系统的误报内容),这样就可能对不知晓研究设计的内镜操作医生实现盲法。但由于假系统并不提示息肉,所以要完全对内镜操作医生实现盲法,就必须不让内镜操作医生直接看到AI系统和“假系统”的提示,而是通过另一个观察者实时报告给内镜操作医生。需要指出的是,内镜操作医生对研究的设计,包括假系统的使用都是不知晓的。为了有效执行这一点,我们把试验的执行选在了我们的一个分院(四川省人民医院医院草堂院区),参与研究的该分院的内镜操作医生完全不知晓此试验的设计和“假系统”的使用。 在这样的设计下,我们站在对研究设计不知晓的内镜操作医生的角度,可以做出如下假设:
综上所述,满足了两个核心的要素,(1)操作医生对研究设计和假系统的使用不知晓;(2)一个完全模拟AI系统的误报而不提示真息肉的“假系统”。这个巧妙的设计,就实现了对操作医生的盲法,让RCT研究的结果偏倚更少,更有参考价值。 另外,这类试验的成功进行对AI系统的性能要求非常高,除了要求AI系统达到“0延迟”的实时性,更需要AI系统具有非常高的敏感性和特异性。因为敏感性不足的AI系统不足以辅助医生提升腺瘤检出率,而误报太多的AI系统会让操作医生与观察者之间的互动效率非常低。 柳叶刀-胃肠病学和肝脏病学:本研究展现了什么,对未来的医疗实践有何启示? 第一,这个研究通过最为严谨的前瞻性双盲RCT设计,证明了高性能的AI系统可以在不增加退镜时间的前提条件下大幅提高腺瘤检出率。 第二,这个临床研究的质量也是我们重点关注和充分落实的,因为我们不仅要验证AI系统的有效性,更要验证AI系统在符合国际高标准的结肠镜检查中的有效性。以往文献报道,国内腺瘤检出率普遍为13-20%。所以,在低ADR的条件下得到的某项干预措施有效性的结果,很难推广到高ADR的医疗服务场景下。因此,我们邀请经验丰富的资深内镜医生严格按照国际质量标准进行结肠镜检查,发现平均退镜时间大于6分钟,对照组的ADR为28%,在年龄低于筛查人群的样本中,这样的ADR是符合我国和美国的指南要求的。在对照组这样的高ADR水平下,试验组的ADR仍然被提高到34%,说明这个AI系统对高ADR的资深内镜医师同样具有明显的提升作用。这样的结果就更具有广泛的价值,包括针对发达国家和地区的高水平医疗服务的进一步提升。 此外,这个RCT是全医学领域第一个关于人工智能系统的双盲随机对照试验,我们也希望这种对操作医生的盲法设计能对未来各个科目的医疗AI研究提供一个思路,从而使得各种医学领域的AI系统通过更加严谨的双盲RCT进行验证,从而使测试结果具有更大的参考价值。
文章来源: 柳叶刀TheLancet
本网站刊载的所有内容,包括文字、图片、音频、视频、软件等,如非标注为“原创”,则相关版权归原作者所有,如原作者不愿意在本网站刊登相关内容,请及时通知本站,我们将第一时间予以删除。