学术动态
您当前的位置: > 动态研究  > 学术动态

利用自然语言处理和机器学习技术从尼泊尔语转录文本中提取语言信息以早期发现阿尔茨海默病

  • 期号:2022-08 总104期

Surabhi Adhikari1, Surendrabikram Thapa2, Usman Naseem3, Priyanka Singh4, Huan Huo4, Gnana Bharathy4, Mukesh Prasad4

1. Department of Computer Science and Engineering, Delhi Technological University, Delhi, India

2. Department of Computer Science, Virginia Tech, Blacksburg, VA, United States

3. School of Computer Science, The University of Sydney, Sydney, Australia,

4. School of Computer Science, University of Technology Sydney, Sydney, Australia

阿尔茨海默病(Alzheimers disease, AD)是一种神经退行性疾病,影响全球超过5000万人口。根据2018年世界阿尔茨海默病报告,预计到2030年,阿尔茨海默病的治疗费用将突破2万亿美元。目前,没有任何批准的药物可以治愈或完全阻止AD的进展。然而,有一些药物可以帮助在AD早期阶段被诊断出的患者。因此,AD的早期诊断也有助于更好地管理患者疾病。AD的重要早期迹象之一是失语。这是由于AD患者倾向于使用更简短的词汇进行表达,随着AD的发展,这些症状变得明显。在对AD患者失语症的研究中发现,100%AD患者和36%的轻度认知障碍(mild cognitive impairmentMCI)患者存在失语症。因此,AD患者产生的异常语音语言特征可用于构建早期诊断AD的智能预测系统。

早期的研究发现,AD患者在语言模式、命名、主题连贯性等方面存在言语异常。而目前广泛使用的AD评估量表由于在评估过程中存在干预、问题不具备普适性等原因使得AD诊断变得困难。而计算语言学在语音转录文本中训练学习模型可以学习到受试者的语音叙述模式。自然语言处理因此可以成为分析和解释AD患者语音的替代方法。

这项工作的动机是在低资源语言的数据中使用自然语言处理检测AD,如果可以证明这项研究,它将为世界各地几种资源不足的语言的AD检测中的传统评估和主要数据收集提供经济增强。

具体的,这项研究使用了DementiaBankPitt语料库,并由两名以尼泊尔语为母语的人翻译。然后,数据预处理步骤去除了不必要的噪音和不会为文本真实含义增加任何价值的不需要的信息。从文本数据提取单词列表并创建词汇表。该研究使用了两种流行的向量化方法,即CountVectorizer和词频逆文档频率。该研究也采用了基于Word2vecfastText进行词嵌入。该研究的分类器选择了如决策树、支持向量机等机器学习模型以及卷积神经网络、双向长短期记忆网络和基于注意力机制的深度学习模型。选择二元交叉熵作为损失函数,并通过准确率、精确度、召回率和F1分数作为指标进行评估指标。

       从结果可以看出,性能最好的模型是采用Word2Vec进行词嵌入的基于注意力的卷积神经网络模型。该模型可用于制作对临床医生友好的应用程序,以帮助他们在早期阶段识别阿尔茨海默病。还可以使用指定的方法开发具有语音合成机制的管道工具以更好地检测疾病。

 

资料来源:

Surabhi Adhikari2022年发表在International Journal of Human-Computer Studies期刊题目为Exploiting linguistic information from Nepali transcripts for early detection of Alzheimer's disease using natural language processing and machine learning techniques》的文章缩写整理而成。


(责任编辑:张卓越)

Copyright © 2021 RESEARCH INSTITUTE OF SMART SENIOR CARE. All rights reserved

京ICP备18021587号-6