Wenli Zhang1,Sudha Ram2
(艾奥瓦州立大学黛比和杰瑞艾维商学院,
亚利桑那大学埃勒管理学院)
哮喘是一种常见的慢性健康状况,影响着美国数百万人。虽然哮喘是不能治愈的,但如果我们能够识别和理解导致哮喘恶化的诱因和危险因素,它是可以控制的。然而,这是具有挑战性的,因为这些触发因素和风险因素是复杂的、相互关联的,而且目前主流的识别方法存在局限性。最近大量异质数据的可用性为哮喘诱因和危险因素分析开辟了新的可能性。在这项研究中,我们引入了一个数据驱动的框架,采用并整合了多种先进的机器学习技术,并进行了实证分析,以(1)从社交媒体中获取自报哮喘患者的特征,(2)整合和重新利用高度异构和常用的数据集,这些数据来自四个不同的来源:社交媒体,环境传感器,社会经济普查和门诊疾病监测。以及(3)我们提出了一种先进的两阶段分类模型,通过顺序模式挖掘和随机森林自动得出对于哮喘触发和危险因素分析至关重要的信息。在第一阶段,我们使用弱标签数据提取人口统计属性,这使我们的模型具有可扩展性和有效性。在第二阶段,我们使用所有可用数据,提出一种基于卷积神经网络(CNN)的轮廓图像分类方法。通过提高准确性,增强了我们模型识别性别,种族和年龄组的能力。
我们的研究揭示了一些与哮喘恶化相关的有趣见解:(1)结果证实哮喘危险因素复杂多样,包括多种生物学,人口统计学,行为,环境,社会,心理和传染性决定因素;(2)哮喘的触发因素和因素通常是相互联系的;(3)根据我们的分析,包括天气和空气质量在内的环境因素是最重要的哮喘危险因素;(4)西班牙裔人口受哮喘的影响最大;(5)暴露于室内污染物和过敏原也可能是哮喘加重的重要危险因素;(6)行为改变干预措施可能是控制哮喘恶化的重要方法。我们的方法和结果可为制定哮喘管理计划和针对特定亚人群的干预措施提供指导,并最终有可能减轻哮喘的社会负担。
虽然结果令人鼓舞,但拟议的框架并非没有局限。第一个局限性源于对社交媒体数据的使用。因为仅采用Twitter数据集可能不完整,并且可能存在选择偏倚。第二个限制是由于缺乏可用性而没有包括一些其他重要的数据源。
资料来源:
根据Zhang等人2020年发表在MIS Quarterly期刊上的《基于机器学习和大型异构数据源的哮喘触发因素和风险因素综合分析》的文章缩写整理而成。
(责任编辑:藏润强)