学术动态
您当前的位置: > 动态研究  > 学术动态

持续自我监督学习:通用多模态医学数据表示学习

  • 期号:2024-08 总128期

Yiwen Ye1Yutong Xie2 Jianpeng Zhang3Ziyang Chen1Qi Wu2Yong Xia1,4,5

1. School of Computer Science and EngineeringNorthwestern Polytechnical UniversityChina

2Australian Institute for Machine Learning (AIML)The University of AdelaideAustralia

3College of Computer Science and TechnologyZhejiang UniversityChina

4Research & Development Institute of Northwestern Polytechnical University in ShenzhenChina

5Ningbo Institute of Northwestern Polytechnical UniversityChina

医学自监督学习(Self-supervised learningSSL)作为大规模监督学习的强大替代方案而出现,展示了高质量表示学习方面的令人印象深刻的成就。 其本质在于通过解决无需人工注释的借口任务,为后续下游任务预训练强大的编码器或编码器解码器架构。 对现有医学 SSL 方法的回顾强调了一种模态:它们主要关注单一模态数据,例如 X 射线、计算机断层扫描(computed tomographyCT)扫描,磁共振图像 Magnetic Resonance ImageMRI)扫描,病理图像,眼底图像,多元心脏信号和超声图像,或者只有少数的配对模态数据(即多个模态都来源于同一被试),例如与X射线配对的放射学报告、MRI 模态对、以及与基因组学配对的图像。 这种狭窄的聚焦限制了它们扩展到通用医学预训练,因为大规模配对多模态数据集通常是不切实际的(因为同时拥有多个模态的被试很少)。尽管在不配对的多模态预训练方面进行了一些开创性的尝试,但这些努力的范围仍然受到明显限制。具体来说,这些努力要么仅限于两种模态,仅针对特定领域,要么仅限于特定维度。这些限制阻碍了他们在面对更多模态时深入研究通用多模态 SSL 挑战的能力。

我们使用普通 Vision Transformer作为主干,并使用掩模建模作为借口任务。 结果是分类任务的准确率、AUC F1 的平均值,或者分割任务的 Dice 的平均值。 我们观察到一个一致的趋势:单模态预训练模型在具有相同模态的下游任务中表现出色,但在处理来自另一个模态的数据时却表现得相当差。 这一观察结果强调了建立一个能够熟练处理各种医学多模态数据的通用预训练模型的紧迫性。 这个问题的一个看似直观的解决方案是联合自监督学习(joint SSL),其中所有可访问的医疗数据(来自各种模态)都被完全收集并参与到每小批量单模态执行的预训练中,考虑到医学成像固有的不同维度。 然而,与单模态 SSL(模型在相同模态上进行预训练和微调)相比,联合 SSL 尽管其信息基础更丰富,但效果不及前者。这种性能下降归因于模态数据冲突,即两种模态的表示学习由于这些模态之间的巨大差异而相互冲突。 此外,联合训练的范式也有它的不妥当之处,比如引入的新的模态数据的成本很高,每次都需要完全重复预训练过程。

为了规避模态数据碰撞的障碍并恢复预训练模型的可扩展性,我们提出了用于多模态表示学习的医学连续自我监督(Medical Continual Self-SupervisedMedCoSS)范式。MedCoSS 与传统的联合预训练不同,它采用顺序预训练范式 [35],将每个阶段分配给特定的模态。 为了避免灾难性遗忘,我们设计了一种基于排练的持续学习技术,该技术使用 k 均值采样策略而不是随机采样,在排练缓冲区中保留先前模态数据的子集(例如 5%)。 针对之前的知识保留,我们在后续的预训练阶段部署了特征蒸馏策略和模内混合策略。 根据我们的 MedCoSS 范式,模型对来自五种模态的数据进行预训练:报告、X 射线、CTMRI 和病理成像。 对包含预训练阶段所有可见模态的九个下游数据集进行评估,以展示我们模型的卓越泛化能力。MedCoSS 的模型始终优于通过单模态预训练、联合预训练和其他多模态预训练范例开发的模型,同时保持具有成本效益的可扩展性以包含新知识,为构建多模态预训练医学通用模型铺平了道路。总之,我们的贡献可以概括为:

1)      我们识别并缓解模态数据冲突问题并创新 MedCoSS 范式。 通过从联合训练转向顺序训练并引入持续学习,我们减少了冲突,并经济有效地扩展了新知识,同时又不忘记旧知识。 

2)      我们对不成对的多模态 SSL进行了深入探索,扩展了模态和数据维度。 我们整合了五种流行的模态,包括报告、X 射线、CTMRI和病理成像,跨越三个维度(1D2D 3D),使用提出的 MedCoSS 预训练通用模型。 

3)      通过我们的MedCoSS 开发的模型在广泛的下游任务上实现了最先进的泛化性能,表明了开发多模态预训练医疗通用模型的潜在方向。

 

资料来源:

根据Yiwen Ye等于2024年发表在IEEE/CVF Computer Vision and Pattern Recognition Conference题目为《Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning》的文章缩写整理而成。

(本文责任编辑:陈劭)

Copyright © 2021 RESEARCH INSTITUTE OF SMART SENIOR CARE. All rights reserved

京ICP备18021587号-6