学术动态
您当前的位置: > 动态研究  > 学术动态

基于异构的时序医学数据的双聚类方法

  • 期号:2022-05 总101期

Maxence Vandromme1Julie Jacques1Julien Taillard1Laetitia Jourdan2,3,4Clarisse Dhaenens2,3,4

1. Alicante companySeclinFrance

2. CRIStAL laboratoryUMR 9189France

3. University of LilleCNRSFrance

4. Centrale LilleFrance

双聚类方法(Biclustering)方法产生一组双向簇(biclusters),每个双向簇对应于数据矩阵的行子集和列子集。这种方法的目标是根据列的子集对相似的行进行分组,反之亦然。双聚类检测行和列之间的相关性,从而对研究数据提供有用的见解。一般的,将矩阵的行作为数据的实例,将列作为描述每个实例的属性。因此,由行RC组成的双向簇可以解释为“在R中的所有实例在属性C上都相似”。双聚类方法是在生物数据分析领域开发的,更具体的说是基因表达分析领域。

在这项研究中,作者使用双聚类方法分析从医院信息系统中提取的医疗数据。该数据包括用于描述每位患者活每次住院的各种类型信息:个人信息(年龄、性别、地址等)、生物学测量、行为、诊断等。双聚类方法通常应用于同质数据,即所有属性都具有相同类型的数据。大多数双聚类应用程序专注于二进制数据或具有标准化值的数值数据。然而,医学数据最重要的方面在于其异质性,包括各种类型的属性。第二个显著特征是它的大小:数十万条记录(实例)以及数千种可能的行为或诊断(属性)。高纬度与数据矩阵中高度稀疏性相结合,因为在给定的住院期间,所有可能的医疗事件中只有一小部分发生。因此,需要处理具有大量缺失值的大型数据矩阵的双重挑战,同时允许所需的方法在其设计中利用高稀疏性。另一个重大困难在于医学数据的内在时间方面,行为和诊断是在住院期间的特定时间进行的,而时间戳携带除了非时间二进制信息之外其他有价值的信息(例如:“此行为是否已执行?”)。这项研究的目标是提出一种能够处理所有这些特殊性的双聚类方法,以从电子健康记录数据中提取知识。

时序事件(temporal events),在研究中指的是与时间戳相关的事件,通常不仅知道事件发生了,还知道事件发生的时间。这类属性不应该被视为简单的二进制属性。为了应对上述问题,在这项研究中关注时序事件的相对排序。在这项研究中在基于HBCHeterogeneous BiClustering)方法上,使用OPSMOrder-Preserving Sub-Matrix)算法提出的质量度量,同时不考虑时间数据本身,而是考虑时序事件的序列。

这项研究是一种新的双聚类方法,旨在数据中的列上找到具有恒定值的双向聚。该方法还能够处理真实数据中常见的高维和稀疏性,特别是在医学数据中。所提出的方法是HBC的扩展,它使用贪婪启发式方法通过迭代地添加列和删除行来构建双集群,同时HBC-t可以很容易的扩展到其他数据类型,只需要一个质量度量和一个简化过程。

 

资料来源:

Maxence Vandromme2022年发表在IEEE Transactions on Knowledge and Data Engineering期刊题目为《A Biclustering Method for Heterogeneous and Temporal Medical Data》的文章缩写整理而成。


(责任编辑:张卓越)

Copyright © 2021 RESEARCH INSTITUTE OF SMART SENIOR CARE. All rights reserved

京ICP备18021587号-6