(图片来源:LynneShallcross/KHN)
雷锋网按:本文译自KHN,作者LizSzabo,雷锋网对其进行了编译。文章的基调略显悲观,言语之中对医疗AI多有批评。诚然,现阶段医疗AI有很多不足的地方。想要真正获得世人的认可,医疗AI要做的事情还有很多,这既需要创业者能够脚踏实地、保持初心,也需要我们对AI尤其是医疗AI这个新事物保持足够的信心。
从虚拟医生到可穿戴式设备和药房里的对话机器人,基于AI的健康产品正在快速进入我们的生活。
美国加州的ScrippsResearch公司心脏病专家兼执行副总裁EricTopol博士说:“在30多年的医学研究中,我发现没有像AI一样具有影响力和变革性的东西。AI帮助医生解释心脏的核磁共振图像、头部CT的图像和眼底照片,还能够处理很多琐碎的事情,让医生腾出更多的时间来关护病人。”
就连过去5年批准了40多种人工智能产品的FDA也表示,“数字健康的潜力是革命性的。”
然而,一个行业的成长不是一帆风顺的,毕竟医疗AI还处于很早期的阶段。因此,就有许多医疗行业专家担心,基于AI的产品将无法达到宣传的效果。许多医生和保护用户权益的人士担心,以“不断试错、不断迭代”为信条的科技行业正在把病人置于危险之中,而监管机构在保护用户安全方面显然做得不够。
没有人希望AI失败
斯坦福大学生物医学伦理学中心的儿科教授MildredCho说,现在市面上的早期人工智能产品(的实际表现),提醒我们在研发、部署的过程中应该谨慎再谨慎。
Cho说,医院开医院部署时经常会失败。事实证明,应用于数百万美国人的AI产品已经显示出对少数族裔的歧视,而且AI系统有时会根据与疾病无关的因素做出预测。
在一个案例中,AI软件错误地得出结论:患有哮喘的肺炎患者死亡的可能性较小。这一错误可能会让医生对哮喘患者的病情放松警惕。
克利夫兰诊所的心脏病学主席StevenNissen博士说:“这种情况(AI作出错误判断)导致严重的事故只是时间问题。”
研究公司Gartner在年7月份的一份报告中总结道,仅在年第三季度,医疗AI产品就吸引了16亿美元的风险资金,“几乎处于虚高预期的顶峰”、“随着现实的考验,医疗AI可能会陷入幻灭的低谷”。
即便是《DeepMedicine:HowArtificialIntelligenceCanMakeHealthcareHumanAgain》一书的作者Topol也承认,许多人工智能产品不过是空话,“这是一个大杂烩。”
风险投资公司Venrock的合伙人BobKocher等专家则直言不讳,“大多数人工智能产品几乎没有证据支持它们,”Kocher说,“在人工智能系统被大量患者使用之前,一些风险不会变得明显。我们将继续发现在医疗数据上使用人工智能的一系列风险和意想不到的后果。”
Topol说,在美国销售的人工智能产品都没有经过随机临床试验的测试,而随机临床试验是最有力的医学证据来源。第一个也是唯一一个人工智能系统的随机试验——计算机辅助诊断的结肠镜检查比标准方式发现更多的息肉于年10月在线发表。
《欧洲临床研究杂志》年1月发表的一篇文章称,很少有科技初创公司在同行评审的期刊上发表研究成果,而同行评审的期刊可以让其他科学家审查他们的工作。这种只在新闻稿或公开活动中描述的“秘密研究”,往往夸大了一家公司的成就。
软件开发人员可能会高估人工智能设备的准确性。专家指出,这是因为,人工智能模型大多是在计算机上测试的,医院或者其他医疗机构。斯坦福大学医疗保健学院AI临床整合医学信息学总监RonLi博士说,使用未经验证的软件“可能会使患者成为不知情的豚鼠”。
除此之外,学习识别数据模式的人工智能系统通常被描述为“黑匣子”——开发人员也不知道是如何得出结论的。威斯康星大学麦迪逊分校法律与生物伦理学教授PilarOssorio表示,考虑到人工智能是如此新的事物,而且它的许多风险还不为人知道,这个领域需要仔细的监管。
然而,大多数人工智能设备并不需要FDA的批准。
Kocher说:“我所投资的公司都不受FDA的监管。”
年,美国国会通过了一项法案,将许多类型的医疗软件排除在联邦审查之外,其中包括某些健身应用、电子健康记录和帮助医生做出医疗决定的工具,这项法案得到了科技行业的支持。
医院12月17日发布的一份关于人工智能的报告显示,很少有关于目前使用的32万个医疗应用是否真的能改善健康的研究。
长期以来,FDA一直将注意力集中在对患者构成最大威胁的设备上。消费者权益保护人士也承认,与诊断或治疗疾病的设备相比,一些帮助人们计算日常步数的设备只需要较少的检查。
年《内科医学年鉴》的一项研究显示,即使有法律要求,一些软件开发人员也不用申请FDA批准或授权,他们对进行昂贵而耗时的试验兴趣不大。
博思艾伦咨询公司的负责人、美国国家科学院报告的合著者JoachimRoski说,“这些公司主要关心的不是将自己提交给同行评议的期刊进行严格的评估。”
但西雅图艾伦人工智能研究所(AllenInstituteforAI)首席执行官OrenEtzioni表示,从经济的层面来说,人工智能的开发商确实需要保证自己产品的安全性。
Etzioni说:“如果快速失败意味着很多人会死去,我认为我们不希望快速失败。”“如果有人死亡或严重受伤,没有人会高兴,包括投资者。”
放宽准入标准,FDA做对了吗?
近年来,FDA因允许销售危险医疗设备而备受指责。国际调查记者联盟认为,在过去10年里,这些危险医疗设备导致8万人死亡、万人受伤。
这些设备中有许多是通过一种被称为(k)途径的、有争议的程序获得许可使用的。该程序允许公司在没有临床测试的情况下销售“中等风险”的产品,只要它们被认为与现有设备相似。
雷锋网了解到,年,医院的一个委员会得出结论,认为(k)程序存在根本性缺陷,FDA应该将其淘汰并重新开始。
但相反的是,FDA正在利用这一过程为人工智能设备开绿灯。
据《美国医学会杂志》11月的一篇文章称,FDA在年和年批准的14种人工智能产品中,有11种通过了(k)程序。研究称,这些产品似乎都没有进行过新的临床试验。
年,FDA批准了一款人工智能设备,该设备旨在帮助诊断肝癌和肺癌,其原理与20年前批准的成像软件相似。该软件本身已被批准,因为它被视为“基本上相当于”年以前销售的产品。
FDA设备与放射卫生中心的数字健康主管BakulPatel说,今天由FDA批准的AI产品基本上是“锁定的”,因此它们的计算和结果在进入市场后不会改变,FDA还没有批准“解锁”的人工智能设备。
为了应对大量AI产品,FDA正在测试一种完全不同的数字设备监管方法,侧重于评估公司,而不是产品。
FDA于年启动的“预认证”试点项目,目的在于“减少软件开发人员进入市场的时间和成本”,尽可能采用“负担最小”的系统。FDA官员表示,他们希望跟上人工智能软件开发商的步伐。与X光机等传统设备制造商相比,人工智能软件开发商更新产品的频率要高得多。
年担任FDA局长时,ScottGottlieb曾表示,*府监管机构需要确保其创新产品的方法“是有效的、能够促进创新、而不是阻碍创新”。
根据该计划,FDA将对那些“表现出质量和组织卓越文化”的公司进行预先认证,这将使他们能够提供较少的设备前期数据。
预先认证的公司可以发布带有“流线型”审查的设备——或者完全不需要FDA审查。一旦产品上市,公司将负责监控自己产品的安全性并向FDA汇报。苹果、FitBit、三星、强生、PearTherapeutics、Phosphorus、罗氏、Tidepool和VerilyLifeSciences等九家公司已被选中进行试点。
当然,高风险产品如用于起搏器的软件,仍将接受FDA的全面评估。“我们绝对不希望病人受伤,”Patel说,如果需要,通过预先认证的设备可以被召回,“我们仍然有很多‘护栏’。”
但研究表明,即使是低风险和中等风险的设备也会因为对患者的严重风险而被召回,例如,强生公司就曾召回了髋关节植入物和外科手术网。
所以,在写给FDA的一系列信函中,美国医学协会和其他机构对允许企业监控自身绩效和产品安全的做法是否明智提出了质疑。
“荣誉不代表就可以放松监管的力度。”医师协会董事会主席JesseEhrenfeld博士说。
在10月份写给FDA的信中,马萨诸塞州民主*参议员ElizabethWarren、明尼苏达州民主*参议员TinaSmith和华盛顿州民主*参议员PattyM·urray质疑FDA是否有能力确保公司安全报告“准确、及时并基于所有可获得的信息”。
实验室与临床的距离有多远?
某些AI设备比其他设备经过了更仔细的测试,就以去年获批的IDx-DR产品为例,在年获得批准之前,研究人员对10家初级保健诊所的名患者进行了一项人工智能筛选糖网的研究。
IDxTechnologies公司的创始人兼执行董事长MichaelAbramoff博士说,该公司与FDA合作了八年,才把产品做好。
雷锋网了解到,IDx-DR产品可以对糖网患者进行筛查,并将高危患者介绍给眼科专家,由他们做出最终诊断。IDx-DR是第一个“自主”的人工智能产品,它可以在没有医生的情况下做出筛查决定。
目前,该公司正在初级保健诊所和杂货店安装AI系统,可以由具有高中文凭的员工进行操作。另外,Abramoff还购买了责任险来承保任何患者的风险。
然而,一些人工智能创新产品却产生了相反的效果。
例如,一家加拿大公司开发了一款人工智能软件,根据一个人的语言来预测患老年痴呆症的风险。但是,个别患者的预测却比其他患者更准确。研究报告的撰写者之一、多伦多大学计算机科学副教授FrankRudzicz解释说:“可能是由于一些人不熟悉英语,不知道怎么表达,而非认知障碍。”
第二个例子是,医院的医生们希望AI帮助他们利用X光片,来预测哪些病人有患肺炎的高风险。尽管该系统可以根据在西奈山拍摄的X光片做出准确的预测,医院拍摄的图像进行测试时却失败了。
最终,研究人员意识到计算机只是学会了辨别在病人床旁拍摄的便携式胸部X光片与在放射科拍摄之间的X光片的区别。
而对于那些病重而无法离开房间的患者,医生倾向于使用便携式胸部X射线检查。这些患者本身的病就很重,发生肺部感染的风险更大也就不足为奇了。
再比如,谷歌旗下的DeepMind开发了一款基于人工智能的移动应用程序,可以提前48小时预测哪些住院患者会出现急性肾衰竭。DeepMind网站上医院使用的这一系统描述为“游戏规则的改变者”。
但是,根据《自然》杂志7月份的一项研究,人工智能系统也会对每一个正确的结果产生两次错误警报。宾医院放射学副教授SaurabhJha博士说,这或许可以解释为什么患者的肾功能没有改善。Jha说,早期发现严重肾脏问题的任何好处都可能被高比例的“过度诊断”所稀释,在这种情况下,人工智能系统会标记出不需要治疗的“边缘性”肾脏问题。
结果,谷歌对Jha的结论不予置评。
Jha说,假阳性可能会让医生进行不必要的检查或停止推荐的治疗方法,从而对患者造成伤害。例如,医生担心病人的肾脏可能会停止开布洛芬(一种对肾功能有小风险的安全止痛药),转而开阿片类药物,这种药物有严重的成瘾风险。
斯坦福大学的Cho说,正如这些研究表明的那样,在实验室里取得好成绩的软件在实际场景中可能会失败。这是因为疾病比许多计算机科学家所预期的要复杂得多,医院系统的功能本身就不是很完善。
年3月,KHN发布的一项调查发现,患者的用药清单、实验室检查和过敏有时会出现危及生命的错误。
Cho说,许多AI开发人员会剔除电子健康记录,因为它们包含了大量的详细数据。但是这些开发人员通常没有意识到他们的AI是在一个不健全的系统上构建的,电子健康记录是为计费而不是为患者护理而开发的,并且充满了错误或丢失的数据。
非营利组织洛恩研究所的主席、心脏病学家VikasSaini博士说,考虑到其中的风险,医生需要介入,保护病人的利益。
Saini说:“企业家的工作要有远见、敢于冒险,而医生的工作是保护患者。”