Yangwei Ying1,Tao Yang1,Hong Zhou1
(1. Zhejiang Provincial Key Laboratory for Network Multimedia Technologies,Key Laboratory for Biomedical Engineering of Ministry of Education Zhejiang University,Hangzhou,310027,China)
阿尔茨海默病(Alzheimer’s disease,AD)是老年人中最常见的慢性神经退行性疾病。临床上表现为进行性且不可逆的认知功能减退,伴有记忆力丧失、判断力和语言障碍,以及其他认知缺陷和行为症状。认知缺陷和行为症状会严格限制个体进行日常社交活动的能力,而其病因至今尚未明确。据世界卫生组织(World Health Organization,WHO)预测,以AD为主的痴呆症患者数量将从2015年的5000万增加到2050年的1.52亿。在中国,AD已上升为十大高危人群之一。中国居民死亡的高危疾病。由于与记忆和认知相关的脑细胞功能受损或死亡。然而,脑细胞变性是一个不可逆转的过程,目前尚无有效的治疗方法。因此,早期诊断和干预对该病具有重要意义。
阿尔茨海默病的主要原因是大脑退化,目前最准确的诊断方法是通过磁共振成像(Magnetic Resonance Imaging,MRI)和正电子发射断层扫描(Positron Emission Tomography,PET)技术分析大脑结构。然而,获取MRI或PET图像进行定期筛查的过程复杂、成本高,不适合早期筛查和诊断。研究表明,虽然记忆力和认知能力下降是AD的典型症状,但语言能力的下降在早期也很明显。语音信号中蕴藏着丰富的个人信息,尤其是AD患者常伴有言语障碍,这使得利用语音信息来区分AD患者和健康人成为可能。而且基于语音分析的方法相对简单、成本低廉、更容易实现自动化和广泛推广。
关于语音分析,有一些研究集中于使用传统方法,例如隐马尔可夫模型和高斯混合模型。此外,大多数语音识别依赖于标记的语音数据,需要大量的训练数据。一些研究人员注意到利用自动编码器等无监督方法,通常会降低输入信息的维度,并根据减少的特征重构信息来解决问题。
根据特征方法,基于语音的AD诊断方法主要有3种,即基于声学的方法、基于语言学的方法和多模态融合方法。传统的声学特征主要由统计特征组成,例如基频、过零率等。在过去的几十年里,在语音分析任务中提出了许多声学特征集,这些特征集可以通过openSMILE工具包(一款语音特征提取工具)轻松提取。然而,这种特征集有两个缺点。一是特征是手动设计的,这很大程度上取决于我们如何选择。另一个是特征集主要是音频特征而不是专为AD 设定的特征。近年来,随着自然语言处理领域的突破,基于Transformer的语言模型和自动语音识别(Automatic Speech Recognition,ASR)模型在大型数据集上训练的在下游任务中表现得很好。使用预训练的语言模型或ASR模型进行声学或语言特征提取已成为主流。尽管如此,这并不意味着基于微调“类BERT”模型提取的深层特征可以完全取代传统特征。事实上,传统特征和深层特征是互补的。适当的特征融合方法可以进一步提高AD识别的准确率。
在上述研究的基础上,本文提出了一种通过语音进行AD识别的多模态特征融合方法。我们的贡献如下:1)所提出的方法在 NCMMSC2021 中文数据集上达到 89.1 % 的准确率。2)在 ADReSSo 英语训练集上达到 83.7 % 的准确率。3)对中英文数据集进行简单比较。
资料来源:
根据Yangwei Ying等于2023年发表在Applied Intelligence刊题目为《Multimodal fusion for alzheimer’s disease recognition》的文章缩写整理而成。
(本文责任编辑:陈劭)