学术动态
您当前的位置: > 动态研究  > 学术动态

用于症状和疾病表征学习的结构和文本信息融合

  • 期号:2022-09 总105期

Sendong Zhao1Meng Jiang2Bing Qin1Ting Liu1ChengXiang Zhai3and Fei Wang4

1. Research Center for Social Computing and Information Retrieval, Harbin Institute of TechnologyChina

2. Department of Computer Science and EngineeringUniversity of Notre DameUnited States

3. Department of Computer ScienceUniversity of Illinois at Urbana-ChampaignUnited States

4. Department of Healthcare Policy and ResearchCornell UniversityUnited States

随着网络应用程序的普及,越来越多的人在网上寻求医疗帮助。据报道,33% 的美国成年人上网了解他们可能患有的疾病。用户可以点击根据其与搜索引擎上的症状查询相关度返回的疾病描述文件,这种点击行为会产生症状-疾病联系。在医学论坛上,医学专家或有相同症状的患者可能会讨论潜在的疾病,这种问答行为也会产生症状-疾病联系。

能否利用大量用户生成的健康相关数据在线指导患者,线下辅助专业临床诊断?文本症状和疾病之间的现有联系是否足以用于缺失链接预测?不幸的是,搜索记录,医学论坛和临床文本记录中的症状通常用叙述性语言非正式地表达。特别是在医学论坛上,症状和疾病通常过于口语化,并不专业或简短。因此,具有相似字面意义或医学意义的症状通常以不同的叙述方式表达,导致症状与疾病之间的关联严重稀疏问题。

为了提高症状-疾病关联数据(来自在线医学论坛或其他应用程序)在疾病预测中的效用,如上所述,必须面对数据稀疏性的挑战。首先,由于症状和疾病的多样性以及症状自然语言表达的多样性,症状和疾病的描述数量达到千级。其次,症状与疾病的关联相对较少。第三,症状和疾病之间的语义不匹配使得稀疏性太严重而无法预测。

为了解决稀疏问题,作者提出了一个新的上下文信息网络正则化框架来学习症状和疾病的表示,而不是二分症状-疾病结构。它融合了疾病和症状的结构和文本信息,以弥合疾病和症状之间的语义鸿沟。作者用一种新的联合结构和文本编码的网络嵌入方法来实现这个想法。此外,为了编码症状和疾病的语义信息,作者进一步提出了ContextCare的高级版本,称为ContextCarePlus(加上语义),它使用卷积神经网络对疾病和症状名称的字符级表示进行编码,利用医学实体之间的词汇和语义相似性,以及语义信息来改进表示学习。作者在真实数据,如好大夫问答数据、中医临床数据和医学发帖数据进行实验表明,作者的方法在数千个类别的疾病预测中优于最先进的方法。

 

资料来源:

根据Sendong Zhao等于2022年发表在IEEE Transactions on Knowledge and Data Engineering期刊题目为《Structural and Textual Information Fusion for Symptom and Disease Representation Learning》的文章缩写整理而成。


(责任编辑:张卓越)

Copyright © 2021 RESEARCH INSTITUTE OF SMART SENIOR CARE. All rights reserved

京ICP备18021587号-6