阿尔茨海默病识别的多模态融合方法-智慧医养研究动态

登录注册

智慧医养研究动态

newsletter for smart senior care and health care

学术动态

您当前的位置： > 动态研究 > 学术动态

阿尔茨海默病识别的多模态融合方法

期号：2023-10 总118期

Yangwei Ying¹，Tao Yang¹，Hong Zhou¹

（1. Zhejiang Provincial Key Laboratory for Network Multimedia Technologies，Key Laboratory for Biomedical Engineering of Ministry of Education Zhejiang University，Hangzhou，310027，China）

阿尔茨海默病（Alzheimer’s disease，AD）是老年人中最常见的慢性神经退行性疾病。临床上表现为进行性且不可逆的认知功能减退，伴有记忆力丧失、判断力和语言障碍，以及其他认知缺陷和行为症状。认知缺陷和行为症状会严格限制个体进行日常社交活动的能力，而其病因至今尚未明确。据世界卫生组织（World Health Organization，WHO）预测，以AD为主的痴呆症患者数量将从2015年的5000万增加到2050年的1.52亿。在中国，AD已上升为十大高危人群之一。中国居民死亡的高危疾病。由于与记忆和认知相关的脑细胞功能受损或死亡。然而，脑细胞变性是一个不可逆转的过程，目前尚无有效的治疗方法。因此，早期诊断和干预对该病具有重要意义。

阿尔茨海默病的主要原因是大脑退化，目前最准确的诊断方法是通过磁共振成像（Magnetic Resonance Imaging，MRI）和正电子发射断层扫描（Positron Emission Tomography，PET）技术分析大脑结构。然而，获取MRI或PET图像进行定期筛查的过程复杂、成本高，不适合早期筛查和诊断。研究表明，虽然记忆力和认知能力下降是AD的典型症状，但语言能力的下降在早期也很明显。语音信号中蕴藏着丰富的个人信息，尤其是AD患者常伴有言语障碍，这使得利用语音信息来区分AD患者和健康人成为可能。而且基于语音分析的方法相对简单、成本低廉、更容易实现自动化和广泛推广。

关于语音分析，有一些研究集中于使用传统方法，例如隐马尔可夫模型和高斯混合模型。此外，大多数语音识别依赖于标记的语音数据，需要大量的训练数据。一些研究人员注意到利用自动编码器等无监督方法，通常会降低输入信息的维度，并根据减少的特征重构信息来解决问题。

根据特征方法，基于语音的AD诊断方法主要有3种，即基于声学的方法、基于语言学的方法和多模态融合方法。传统的声学特征主要由统计特征组成，例如基频、过零率等。在过去的几十年里，在语音分析任务中提出了许多声学特征集，这些特征集可以通过openSMILE工具包（一款语音特征提取工具）轻松提取。然而，这种特征集有两个缺点。一是特征是手动设计的，这很大程度上取决于我们如何选择。另一个是特征集主要是音频特征而不是专为AD 设定的特征。近年来，随着自然语言处理领域的突破，基于Transformer的语言模型和自动语音识别（Automatic Speech Recognition，ASR）模型在大型数据集上训练的在下游任务中表现得很好。使用预训练的语言模型或ASR模型进行声学或语言特征提取已成为主流。尽管如此，这并不意味着基于微调“类BERT”模型提取的深层特征可以完全取代传统特征。事实上，传统特征和深层特征是互补的。适当的特征融合方法可以进一步提高AD识别的准确率。

在上述研究的基础上，本文提出了一种通过语音进行AD识别的多模态特征融合方法。我们的贡献如下：1）所提出的方法在 NCMMSC2021 中文数据集上达到 89.1 % 的准确率。2）在 ADReSSo 英语训练集上达到 83.7 % 的准确率。3）对中英文数据集进行简单比较。

资料来源：

根据Yangwei Ying等于2023年发表在Applied Intelligence刊题目为《Multimodal fusion for alzheimer’s disease recognition》的文章缩写整理而成。

（本文责任编辑：陈劭）

【打印】

上一条: 多模态成像遗传学诊断阿尔茨海默症的深度典型相关分析

下一条: 探索患有哮喘和慢性阻塞性肺病的老年人对移动健康的看法和经验：一项定性研究

京ICP备18021587号-6