具有革命性的算法低估了对患者的风险
曼彻斯特大学的研究人员发现,在医疗保健领域被誉为改变游戏规则的机器学习算法可能会严重低估患者的风险水平。这项研究将12种流行的机器学习模型与三种用于预测个体心脏病发作或中风风险的标准统计模型进行了比较,研究结果发表在《英国医学杂志》上。
研究人员以心脏病发作和中风为案例进行了研究,但认为大多数用于评估临床风险的机器学习算法可能会遇到类似的问题。最近几个月内,算法第二次遭遇批评:Ofqual使用的算法强制降低A级考试成绩同样导致过分的降级。与命运多舛的A级考试算法类似,这些模型产生的数据似乎在总体水平上是强大的,但在个体水平上并非如此。
最近,机器学习模型获得了相当大的知名度:英国国民医疗服务系统(NHS)投资了2.5亿英镑以进一步将机器学习融入医疗保健领域。目前,全科医生使用标准统计工具(QRISK)来确定他们的患者是否有发展心血管疾病10年风险达到10%或更高的情况。那些风险较高的患者应该被开处方服用他汀类药物。该研究发现,相同患者的预测风险在机器学习模型和QRISK之间差异很大,特别是对于风险较高的患者。此外,不同的机器学习模型给出了不同的预测。与QRISK不同,许多机器学习算法无法考虑统计学家所说的“截尾”情况:患者会流动,从而使计算朝向下方倾斜。在针对223,815名具有大于7.5%心脏病发作或中风风险的患者进行QRISK分析时,57.8%的患者在使用机器学习模型时会被重新分类为低于7.5%。

联合作者Tjeerd Pieter van Staa教授表示:“患者常常因为各种原因而退出全科医生行列,但很少有机器学习算法将这一点纳入到大型数据集的建模中。”即使患者在一个医生行列中注册了几个月,算法也会将其视为10年的数据,导致临床风险被严重低估。他补充道:“这些算法不仅低估了风险,而且数字间存在广泛的差异,使选择合适的模型来确定治疗方案变得困难。”
他补充说:“机器学习在医疗保健领域的其他领域可能会有所帮助,比如影像学。但在预测风险方面,我们认为在将这项技术安全地应用于临床环境之前,还需要做更多的工作。”“也许声称机器学习将彻底改变医疗保健领域的说法有些过早。”该团队在391家英格兰全科医生处注册的391家一级卫生保健机构的Clinical Practice Research Datalink GOLD的3,600,000名患者身上测试了这些算法。