Massimo Salvi1,*,Silvia Seoni1,Andrea Campagner2,Arkadiusz Gertych3,4,5 etc.
(1. Biolab,PoliToBIOMed Lab,Department of Electronics and Telecommunications,Politecnico di Torino,Corso Duca degli Abruzzi 24,10129 Turin,Italy,
2. IRCCS Ospedale Galeazzi - Sant’Ambrogio,Milan,Italy,
3. Faculty of Biomedical Engineering,Silesian University of Technology,Zabrze,Poland,
4. Department of Surgery,Cedars-Sinai Medical Center,Los Angeles,CA,United States,
5. Department of Pathology and Laboratory Medicine,Cedars-Sinai Medical Center,Los Angeles,CA,United States)
编者按:
深度学习在智慧医养领域应用日益广泛,但其“黑箱”特性及由此引发的决策风险令人担忧。本研究强调,必须将可解释人工智能与不确定性量化进行深度整合以更好地实现模型解释的可靠性,显著提升AI决策的透明度和可信赖度。我们认为,这种双管齐下的策略是推动AI在医疗保健等关键领域安全、可靠应用的重要方向。
深度学习(Deep Learning,DL)是一类机器学习方法,它能够在不显式定义特征的情况下,逐步学习不同抽象层次的数据表示。DL模型在改善医疗保健领域的诊断和预后方面取得了令人瞩目的性能,包括通过组织病理学解释应用于肿瘤学、通过光学相干断层扫描图像分析应用于眼科,以及各种其他医学成像模态。然而,其固有的复杂性和缺乏透明度常常引发人们对其模型决策解释、可信度和可靠性的担忧。
已记录的模型故障反复表明了可解释性和透明度在医疗AI应用中的重要性。不透明决策过程的风险被斯坦福大学的研究突出显示,该研究揭示了AI模型可能无意中学习到错误的特征,在其案例中,当图像中存在尺子(Rulers,指医生或技术人员在拍摄皮肤病变等医学图像时,为了提供病灶大小的参考和记录,放入画面中的测量尺)时,算法更有可能将皮肤病变分类为恶性,仅仅因为其训练数据集中恶性病变图像中包含更多的尺子。这个例子表明,缺乏透明度可能会掩盖模型决策中潜在的危险偏差。另一个具有启发性的案例涉及一个肺炎预测模型,该模型表现出强大的内部性能,但未能推广到不同医院,部分原因是它学习了混杂变量,包括X光片是否为便携式(这在重症住院患者中很常见)。该研究还表明,该模型能够通过检测图像采集和处理中的细微差异,以超过99.9%的准确率识别出原始医院系统,这突显了AI模型在进行预测时可能依赖虚假相关性而非临床相关特征。
在这种情景下,可解释人工智能(Explainable Artificial Intelligence,XAI)作为解决这些挑战的关键范式出现,它为模型预测提供了解释。XAI涵盖了旨在使AI决策对人类用户更透明和可理解的方法和技术。虽然已经提出了几种方法来补充XAI,包括可解释的特征工程、注意力机制和基于案例的推理,但这些方法通常侧重于模型解释的不同方面,而没有直接解决解释本身的可靠性问题。此外,仅凭解释可能不足以保证模型的可靠性,尤其是在医疗保健应用中。这一局限性使得不确定性量化(Uncertainty Quantification,UQ)的重要性日益增加,它通过提供与模型预测相关的定量不确定性度量来补充XAI。UQ能够评估模型的置信度,并识别模型产生不确定或不可靠预测的实例。尽管这些方法在增强DL模型可靠性方面具有互补性,但它们通常被分开考虑,导致对其协同潜力的理解不足。
本文强调了将UQ与XAI方法整合以增强DL模型透明度和可靠性的重要性。通过量化XAI方法所提供的解释的不确定性,可以更深入地理解模型的决策过程并评估解释的可信赖性。我们推断,UQ技术应被纳入XAI框架内,以扩展系统如何使其输出更易于理解、更透明和更可靠。通过量化不确定性并有效地将其传达给用户,模型避免隐藏不确定性,而是旨在透明地传达它。
因此,本文倡导整合UQ和XAI,提出了可以利用UQ技术来服务XAI目标的具体方法。此类技术的例子包括推理过程中的测试时数据增强(如通过微小改变输入数据,多次测试,观察预测结果的稳定性,以量化模型对输入噪声的敏感度)、蒙特卡洛弃权(随机关闭/弃权部分神经元多次,观察每次预测结果的差异,以量化模型的内在不确定性),以及基于共形预测启发的构建不确定性集的技术(构建“不确定性集”或“置信区间”,保证模型预测的真实标签以预定的高概率落在这个集合内)。为了推进这种整合,本文探讨了三个主要目标:
1. 提出结合UQ和XAI技术的具体方法学途径,重点是将不确定性度量集成到现有解释方法中,并开发同时解决这两个方面的统一框架。
2. 分析实施组合UQ-XAI系统的实际挑战,包括计算考量、训练要求、临床工作流程集成和监管合规性。
3. 为医疗保健领域集成UQ-XAI系统的未来研究方向和发展提出具体建议,涉及验证方法和性能指标。
通过弥合XAI与UQ之间的鸿沟,我们断言有可能开发出更全面、更可靠的可解释AI系统,从而培养信任,并为在医疗保健等关键领域的更广泛采用铺平道路。
资料来源:
根据Massimo Salvi等于2025年发表在International Journal of Medical Informatics题目为《Explainability and uncertainty: Two sides of the same coin for enhancing the interpretability of deep learning models in healthcare》的文章缩写整理而成。
(本文责任编辑:陈劭)