将 AI 用于疾病诊断已经是一个老话题。
早在 2019 年 8 月,伦敦癌症研究所就在 NPJ Breast Cancer 杂志上发表了一篇文章,称他们将 AI 应用于分析乳腺癌的基因序列与分子数据,最终成功识别出 5 种新的乳腺癌亚型,还能辨识出哪些女性对乳腺癌有较好的免疫力。
链接:
https://www.nature.com/articles/s41523-019-0116-8
这项研究吸引了越来越多科研者加入将 AI 用于辅助乳腺癌发现或治疗的队伍。
去年 1 月,谷歌的健康团队又联合 DeepMind 在 Nature 上发表了一项将 AI 用于检测乳腺癌的研究成果。他们开发了一个针对乳腺癌的 AI 筛查系统,可以对乳腺癌 X 射线造影数据进行大规模分析与处理,也引起了广泛关注。
链接:
https://www.nature.com/articles/s41586-019-1799-6
当时,这项研究的报道称,通过与 6 位美国放射科医生的筛查过程相比,他们所开发的 AI 系统表现优于所有医生,AI 系统的自动识别面积比一般放射科医生要高出 11.5%。
芸芸大众一看,立即拍腿赞叹:AI 真了不起!AI 是不是很快就要超越、甚至取代放射科医生?
冷静、冷静。
近日,《英国医学杂志》(The BMJ)刊登了一篇来自英国华威大学医疗科学部门研究人员(以下简称“该团队”)的研究工作。该团队对近年 AI 技术用于乳腺癌筛查的工作进行了检索,希望检验 AI 技术用于 X 光摄像识别的准确度。
该团队得出的研究结论是:目前的研究证据还不足以判断 AI 在乳腺癌筛查项目中的准确性,也尚不清楚 AI 在临床医学的哪个环节最有用。
但可以肯定的是,AI 系统目前尚无法取代超过两位放射科医生合作探讨的结果。
研究背景
乳腺癌是夺走全球女性健康与生命的主要原因之一。2015 年,全球约有 240 万女性被诊断出患有乳腺癌,523,000 名女性因此死亡。
乳腺癌在早期时发现会更容易治疗,因此许多国家都推出了乳腺癌的筛查计划。
乳腺癌筛查需要一名或两名放射科医生检查 X 光照片,以寻找症状出现前的癌症迹象,从而降低乳腺癌的发病率与死亡率。在筛查的过程中,乳腺癌的发现率为 0.6% 至 0.8%。值得注意的是,15% 至 35% 的乳腺癌会因为筛查误差或不易见症状而没有被发现。有些被漏诊的癌症,在症状上被称为“间期癌”(interval cancer)。
2019 年,全球有 3.8% 研究 Scopus 数据库的同行评审文章与 AI 相关。许多研究称,在乳腺癌筛查的图像识别上,AI 比经验丰富的放射科医生表现更优,并能弥补现有人类医生筛查的缺陷。比如,AI 算法不会“疲劳”,也不会掺入主观诊断,所以能帮助发现更多乳腺癌病例,减少放射科医生的工作量,甚至完全取代放射科医生。
但是,华威大学的研究指出,AI 也可能会加剧筛查的危害。比方说,如果 AI 在图像筛查中检测到更多微钙化(由较低级别的原位导管癌引起),那么它可能会改变乳腺癌的疾病谱。在这种情况下,AI 可能会增加过度诊断与过度治疗的概率。
尸检研究表明,大约 4% 的女性是带着乳腺癌死亡,但死因并不是乳腺癌,所以数据存储了许多不重要的临床疾病,包括可能被 AI 检测到的偶发原位癌。疾病谱与 X 线图像的特征有关(例如,原位导管癌通常与微钙化有关)。因此,AI 系统基于训练的案例,以及 AI 系统的结构,可能会对检测到的疾病谱产生重大影响。
目前的许多人工智能系统是不可解释的,是一个“黑匣子”,与人类决策者的思路可解释形成鲜明对比。AI 算法无法理解图像的上下文、收集模式与含义,可能产生“抄捷径”的问题。此前,DeGrave 等人在“AI for radiographic COVID-19 detection selects shortcuts over signal”(2020 年)一文中便展示了一些深度学习系统如何通过混杂因子而不是病理来检测新冠病毒,从而导致系统的泛化性极差。
这项工作对 2010 年 1 月 1 日至 2021 年 5 月 17 日期间 Medline、Embase、Web of Science 与 Cochrane Database of Systematic Reviews(CENTRAL) 等英文文献数据库进行了系统检索。
检索的主题包含 4 个:乳腺癌(breast cancer)、人工智能(artificial intelligence)、X 线照相术(mammography)和测试精度(test accuracy)或随机对照试验(randomised controlled trials)。
研究发现
回顾常规乳腺癌筛查中所用的 AI 图像分析系统,华威大学的研究团队确定了 12 项评估商用或内部卷积神经网络 AI 系统的研究,包含了对 131,822 名女性的筛查数据,是第一个对 AI 辅助乳腺癌发现的准确性进行检测的研究工作。其中,9 项研究将 AI 系统与放射科医生进行了对比。
三项回顾性研究将 AI 系统与原始放射科医生的临床决策作了比较,研究对象包含 79,910 名女性,其中 1878 名女性在筛查后的 12 个月内检测到癌症或间期癌。在研究所评估的 36 个 AI 系统中,有 34 个(94%)的准确率低于单一的放射科医生;如果与两位以上的放射科医生讨论对比,那么 36 个 AI 系统的检测准确率都比不上人类医生。
瑞典筛查计划的 DREAM 挑战覆盖了 68,008 名女性,发现表现最佳的 AI 系统也比不上人类放射科医生(88% vs. 96.7%);当 AI 的阈值分别设置为第一读者敏感性与读者敏感性的共识时,AI 的表现也与人类原创的共识决策相差甚远(81% vs. 98.5%)。八个表现最佳的 AI 系统的集成方法特性也比不上第一的放射科医生(92.5% vs. 96.7%)。
瑞典一个更广泛的研究使用了三个商用 AI 系统,设置的阈值与原创放射科医生的特性相当。该研究发现,与第一的放射科医生相比,一个商用 AI 系统的灵敏度更高(81.9% vs. 77.4%),其余两个商用 AI 系统的灵敏度较差(67%,67.4%)。而与人类的创新共识决策相比(85%),三个商用 AI 系统的表现都更差。
而在五项范围较小(1086 位女性、520 种癌症)、风险较高且临床需求较小的研究中,所评估的 5 个 AI 系统(独立替代放射科医生或阅读辅助)在阅读实验室测试集时的准确率都高于单一的放射科医生。在三项研究中,用于分类的 AI 技术可以分别筛选出 53%、45% 和 50% 处于低风险的女性,而放射科医生仅能检测到 10%、4% 和 0% 的癌症。
六项范围最小的研究(总共覆盖了 4,183 名女性)发现,AI 比单一的放射科医生更准确。在这六项研究中,有五项研究里,放射科医生是在实验室环境中检查 932 名女性的 X 光图像,这种方法不能推广到临床实践中。
而美国的一项筛查研究则发现,AI 系统在灵敏性(56% v 48%)与独特性(84% v 81%)方面的表现超过单一的放射科医生。此外,两项丰富的测试集多案例多阅读器实验室研究报告称,AI 在实验室环境的阅读中要优于单个放射科的平均表现。
在辅助阅读上,有三项研究将 AI 作为阅读辅助工具,发现放射科医生在实验室环境中阅读丰富测试集的准确性无法泛化到临床实践上。三项研究均显示,有 AI 技术辅助的放射科医生在平均灵敏度上均高于独立阅读。
在丰富的测试集多读者多案例实验室研究中,一个独立的内部 AI 模型(DeepHealth Inc.)能够检测到更多的浸润性癌症(多 12.7%)和更多的原位导管癌(多 16.3 %)。
写在最后
研究团队得出的结论是:目前的研究证据还不足以判断 AI 在乳腺癌筛查项目中的准确性,也尚不清楚 AI 对临床医学的哪些方面最有用。但可以肯定的是,AI 系统目前尚无法取代两位以上放射科医生的合作探讨。
大多数研究都集中在以图像识别和解释为核心的筛查过程中。最近发表的工作还研究了如何将人工智能和深度学习用于糖尿病视网膜病变筛查。除了传统的筛查计划,深度学习在医学中的应用也越来越广泛,并被考虑用于黑色素瘤、眼科疾病(年龄增长所引起的黄斑变性和青光眼)的诊断,以及对组织学、放射学和心电图图像的解释。
该团队认为,如果用 AI 协助放射科医生重新设计乳腺癌筛查流程,而不是与放射科医生竞争、取代放射科医生,也许是一种更有潜力的研究方式。比如,我们可以用 AI 技术预先筛选简单的常规 X 光照片,以及对遗漏病例进行补充筛选。同样地,在糖尿病眼部筛查中,越来越多的证据表明,AI 可以筛选出哪些是需要人类审核员查看的图像,哪些是可以直接返回给女性的图像。