学术动态
您当前的位置: > 动态研究  > 学术动态

在Reddit中识别疾病或症状术语以改善健康提及的分类

  • 期号:2022-06 总102期

Usman NaseemJinman KimMatloob KhushiAdam G. Dunn

School of Computer ScienceUniversity of Sydney SydneyAustralia

 

社交媒体平台是用于公共卫生监测的有价值的信息来源。研究平台中分享的个人健康经验的系统回顾显示了其应用领域的广泛性,包括传染病疫情、非法药物使用和药物警戒支持。这些健康应用研究的动机是它们在支持公共卫生监测、增强不良事件报告以及作为公共卫生干预措施的基础方面具有潜力。

健康提及分类(Health mention classificationHMC)的目的是检测文本是否包含个人健康的提及。之前大多数针对用户生成文本HMC任务的研究都集中于Twitter数据上,并没有调查其他具有较长帖子的在线论坛,如Reddit。而Reddit由于其匿名性、受欢迎程度高、较长的帖子而成为最有前途的平台。

现有HMC研究的局限性包括:一、之前研究忽略了合并用户行为信息;二、之前研究人们在帖子中使用疾病或症状术语的其他方式。由于疾病或症状是用户健康状况包含行为的变化,我们假设行为的变化包含情绪、思维或行为(或这些组合)的变化以改善HMC任务。因此,该研究采用自然语言处理工具来进行HMC任务。

为了解决之前HMC任务数据集仅有疾病或症状标注的缺陷,作者使用Reddit帖子构建了一个大规模数据集。作者的Reddit HMC数据集包含10,015个手动注释帖子,涵盖15种不同的疾病和症状术语。每个帖子标有细粒度使用的疾病或症状术语。同时,作者提出一种新颖的健康提及分类网络——HMCNET,它结合了通过考虑上下文和语义信息来识别目标关键字以及用户行为特征,如社交网络、特定领域和情感特征。这些特征被送到2个独立的双向门控循环单元并连接起来进行最终预测。

该研究的贡献为:一、作者构建并发布了一个Reddit HMC 数据集;二、基于Twitter数据集的替代方案,通过对疾病或症状术语的细粒度标记,增加了社交媒体上疾病或症状术语的覆盖率;三、作者提出了一种新颖的HMCNET,通过结合识别目标关键字和有关HMC任务的用户行为;四、作者证明HMCNET的性能优于最先进的方法,达到0.75F1分数。

 

资料来源:

    根Usman Naseem2022年发表在Proceedings of the ACM Web Conference 2022会议题目为《Identification of Disease or Symptom terms in Reddit to Improve Health Mention Classification》的文章缩写整理而成。


(责任编辑:张卓越)

Copyright © 2021 RESEARCH INSTITUTE OF SMART SENIOR CARE. All rights reserved

京ICP备18021587号-6