Shuaiqun Wang,Kai Zheng,Wei Kong,Ruiwen Huang,Lulu Liu,Gen Wen and Yaling Yu
(School of Information Engineering,Shanghai Maritime University,Shanghai,China)
阿尔茨海默病(Alzheimer’s disease,AD)在医学上被认为是一种以记忆功能障碍和执行功能障碍为特征的进行性神经退行性疾病。主要表现为认知能力下降和非认知神经精神症状。目前临床治疗AD主要集中于维持退行性神经元的功能,但尚无治愈方法。因此,对AD的研究一直是医学热点。同时,研究表明,了解其发病机制,提前进行早期预防,对于AD的治疗具有重要意义。
多模态数据融合在脑科学领域发展迅速,广泛应用于脑疾病的研究。由于AD多模态数据没有统一的公开样本,研究人员经常面临如何从具有高维状态的融合数据的小样本中提取重要特征的挑战。近年来,研究人员首先使用了一些经典的分析方法,如随机森林、线性判别分析、主成分分析和独立成分分析,解决多模态数据问题。然而,这些方法只能实现属性简约性,不能单独分析一些重要的融合特征。因此研究人员开始改进这些经典的分析方法,例如,Du等人使用一种新的结构化稀疏典型相关分析(sparse canonical correlation analysis,SCCA)方法来检测AD中脑成像表型的遗传关联,Hu等人提出了一种自适应稀疏多重典型相关分析方法,用于检测与脑部疾病相关的基因和异常脑区。魏等人在SCCA的基础上提出了多任务SCCA来识别单核苷酸多态性(single nucleotide polymorphism,SNP)与多模态成像数量性状之间的双变量关联。对于AD的研究,除了上述基于统计分析的方法外,还有机器学习分析方法是目前研究的热点。例如,杨等人使用支持向量机方法将SNP数据与功能磁共振成像(functional magnetic resonance imaging,fMRI)数据相结合,以实现对患者的分类工作,准确率为87%。Greenstein等人将临床数据添加到具有SNP数据的磁共振成像数据中,并使用随机森林方法进行分类研究。由于脑成像数据的相关性和复杂性,研究人员尝试将神经网络应用于脑科学研究,并取得了显著成果。基于以上研究可以得出结论,神经网络与多模态融合数据相结合,可以有效地揭示患病脑区与脑部疾病致病基因之间的关联,这也将推动AD的整体研究进程。
由于医学数据库的复杂性和专业性,存在数据样本少、维度高、数据处理繁琐等问题。众所周知,神经网络训练的样本量越大,模型的效果越好。因此,如何保证神经网络能够从小样本、高维数据集中提取有效特征,实现准确分类,是我们目前研究的难点,也是本文要解决的问题之一。此外,一些传统的相关性分析方法往往被用来构建多模态数据融合特征,这些方法往往忽略了大脑区域与基因之间的非线性关系。因此,如何基于多模态医学数据合理高效地构建融合特征是本文需要解决的另一个问题。
针对上述问题,本文基于遗传进化随机神经网络集群(genetic evolution random neural network cluster,GERNNC)模型,构建了基于静息状态功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)数据和基因数据的AD多模态数据融合特征,从而设计出一个综合的AD诊断和分析框架。首先,我们通过比较多种经典相关分析方法,最终选择互信息进行rs-fMRI数据和SNP数据的融合,构建脑区和基因的融合特征。其次,IGERNNC(improved GERNNC)模型用于解决小样本、高维医学数据的问题。该方法主要集成多个神经网络,结合遗传算法完成神经网络的外部优化,并保留精华样本进行自适应动态优化。最后,IGERNNC可以检测患病样本并提取致病因素,形成用于AD研究的多任务框架。我们使用来自ADNI(Alzheimer’s disease Neuroimaging Initiative)数据库的多模态融合数据验证了IGERNNC模型,实验表明该模型的整体性能非常出色。
资料来源:
根据Shuaiqun Wang等于2023年发表在Briefings in Bioinformatics期刊题目为《Multimodal data fusion based on IGERNNC algorithm for detecting pathogenic brain regions and genes in Alzheimer’s disease》的文章缩写整理而成。
(本文责任编辑:陈劭)