Qiuhui Chen,Yi Hong
Department of Computer Science and Engineering,Shanghai Jiao Tong University,Shanghai,China
神经退行性疾病,例如阿尔茨海默病(Alzheimer's disease,AD)、帕金森病(Parkinson’s disease,PD),影响着全世界数百万人; 不幸的是,他们目前无法治愈。 然而,神经退行性疾病的早期诊断对于干预至关重要,并为痴呆症患者提供了获得早期治疗并制定未来护理计划的机会。 在神经退行性疾病的临床诊断中,医学数据通常表现出多模态性质,包括脑部MRI等医学图像扫描和非影像临床信息,例如人口统计、血清学测试、神经心理学检查等。因此,如何区分和融合这些多模态临床数据中的任务区分信息对于神经退行性疾病的准确计算机辅助诊断至关重要,但也具有挑战性。
在早期阶段,基于机器学习的方法需要人工选择疾病相关特征进行诊断;然而,相关的专家知识太有限,无法支持诊断特征的准确选择。随着深度学习方法的普及,自动特征选择已成为首选,而现有的大多数方法完全依赖深度学习技术来处理海量信息之间的特征选择和融合任务。大多数研究人员采用的典型方法是分别提取成像和非成像数据的特征,然后将它们连接起来进行诊断分类。由于与任务相关和不相关的信息是混杂在一起的,因此将如此多的信息融合在一起进行诊断令医生不堪重负。
最近,由于多模态特征的空间差异以及最近视觉语言预训练(vision language pretraining,VLP)模型(如CLIP,ALBEF,BLIP)的有效性,最近的一些研究,如MedCLIP,Alifuse,将成像特征与非成像数据的文本特征空间对齐,并使用预训练的大型语言模型或交叉注意力技术将它们融合。然而,基于VLP的模型更喜欢配对的图像和文本数据,例如医学扫描和报告,其中文本描述相关的医学图像。然而,用于临床诊断的非成像数据只会与医学扫描进行部分配对,同时提供病人的补充诊断信息。更重要的是,成像和非成像之间的一致性发生在图像层面(Image-Level),它缺乏有助于融合部分配对的数据并有助于疾病诊断的细粒度特征。
考虑到影像学和非影像学数据中都存在大量与疾病诊断无关的信息,本文探索了自动突出和融合与目标疾病相关性强的多模态特征的可能性。模态内和跨模态都存在与疾病无关的信息。为了消除这种不相关性问题,我们提出了一个自监督多模态相关加权(Self-supervised Multimodal Relevance Weighting,SMRW)模块,该模块分层地聚类相关信息,并学习一个相关评分向量来在多模态数据内部和之间进行加权。在学习权值的指导下,通过带有注意力机制的Transformer,多模态特征融合变得相对容易。因此,我们提出了一个多模态关联门控注意力Transformer(Multimodal Relevance-gated Attention Transformer,MRAT),它包括模态内和模态间的关联分数来计算自注意力机制和图像到文本和文本到图像的交叉注意,从而为诊断预测提供有效的关联融合。下图描述了本文提出的模型的总体架构,即自加权多模态注意力和相关性门控Transformer(Self-weighted Multimodal Attention-and-Relevance gated Transformer,SMART),它应用于神经退行性疾病的诊断。
总的来说,本文的贡献总结如下:
(1)我们提出了一个新的框架SMART用于多模态神经退行性疾病的诊断。在AD和PD等神经退行性疾病的三个公共基准数据集上进行的大量实验表明,我们的方法优于10个基线,包括以前的SOTA方法。
(2)提出了一种自加权多模态表示学习技术SMRW,该技术采用自监督两级对比学习,在模态内和模态间自动聚类和加权相关信息。后续关联门控注意模块允许有效的多模态特征融合,以进行最终预测。
(3)由于SMRW学习到的相关性评分,我们的模型在一定程度上是可解释的,同时具有较高的诊断准确率。此外,我们的模型理论上是为多种模态设计的,其中可能包括更多的模态,如音频,以充分利用所有可能的医疗信息。
资料来源:
根据Qiuhui Chen等于2024年发表在Proceedings of the 32nd ACM International Conference on Multimedia题目为《SMART:Self-Weighted Multimodal Fusion for Diagnostics of Neurodegenerative Disorders》的文章缩写整理而成。
(本文责任编辑:陈劭)