Lian Duan1,* ,Wenjun Zhou2 ,Yong Hu3 ,Lida Xu4 ,Mei Liu5
(1. Department of Information Systems and Business Analytics,Hofstra University,Hempstead,New York,
2. Business Analytics and Statistics Department,University of Tennessee,Knoxville,Knoxville,Tennessee,
3. Big Data Decision Institute,Jinan University,Guangzhou,China,
4. Department of Information Technology and Decision Sciences,Old Dominion University,Norfolk,Virginia,
5. Department of Health Outcomes and Biomedical Informatics,University of Florida,Gainesville,Florida)
编者按:
本研究提出的误差控制相关性(Error-Controlled Correlation,ECC)框架,为上市后药物安全监测带来了重要方法创新。传统不良药物反应识别方法在早期数据有限的情况下容易出现偏差,而 ECC 通过同时考虑相关性强度与统计变异性,显著提升了弱信号环境下的检测能力。其将监测任务从“是否相关”拓展为“相关性排序”,为多药物-多不良反应的大规模监测提供了更具实用性的技术路径。研究表明,ECC 仅需传统方法约十分之一的数据量即可达到相当效果,对智慧医养领域的药物安全预警、实时监测及智能决策具有积极推动作用。
在美国,每年有数十亿美元被用于疾病治疗和预防的处方药开支。2015 年,美国人均处方药支出约为 1,000 美元,是 1995 年的四倍。尽管药物在获批上市前要经历严格的安全性评估,但在广泛投放并用于多样化人群之后,仍可能引发一系列不良药物反应(Adverse Drug Reactions,ADRs)。世界卫生组织将 ADRs 定义为:在用于人类预防、诊断或治疗时,在常规剂量下出现的任何有害的、非预期且不希望发生的药物作用。部分 ADRs 可能只表现为轻微不便,但也可能发展到足以造成伤害,甚至在极端情况下导致死亡的严重程度。ADRs 已成为一个重要的公共卫生问题,大约 5% 的住院、28% 的急诊就诊以及 5% 的院内死亡与之相关。因此,及早发现药物与ADRs之间的相关性至关重要。早期检测不仅有助于制定预防策略,从而减少患者伤害并降低全社会医疗成本,还在新药和疫苗研发中具有核心作用。尤其在由新发疾病引发、兼具高传染性和高病死率的全球卫生危机背景下,这种重要性更加凸显。
ADRs的检测依赖多个科学领域的跨学科协作,包括生物学、化学和数据分析等。在获得监管批准之前,新药会通过毒性筛查和上市前临床试验证实其疗效与安全性。毒性筛查主要采用生化实验和动物试验来识别潜在毒性作用,特别关注基于共同蛋白结合位点或化学结构对 ADR 的预测。上市前临床试验通常招募数千名相对健康的志愿者,在严格控制条件下评估药物的安全性和治疗效果。尽管药物审批流程极为严谨,但在药物广泛使用之前,仍难以预测所有潜在 ADR。这一困难主要源于两方面:其一,毒性筛查无法穷尽所有非靶向蛋白相互作用;其二,临床试验人群的多样性有限,与最终实际接触药物的广泛人群存在差异。
在上市后监测中,相关性分析在识别药物与ADRs之间的联系方面变得愈发重要。然而,许多现有方法要么将问题简化为“是否存在相关性”的二元决策,要么仅给出相关性强度却忽略其变异性。对于具有不同固有使用或发生的频率的药物和 ADRs,这种做法尤其不理想。在比较替代治疗方案时,将变异性纳入相关性评价尤为关键。例如,如果某种替代方案在经济性或治疗效果方面更具优势,临床医生可能愿意接受一个相关性程度较低的轻度 ADRs风险。如果缺乏精确、对方差敏感的相关性估计,就难以在成本、效果和风险之间做出最合适的治疗选择。有别于既有研究,本文关注的是一个更为精细的任务:在考虑变异性的前提下,对相关性强度进行精确量化。我们的设定是:连续接收药物–ADRs 事件记录流,并基于非寻常的共同出现(co-occurrence)的模式识别有意义的关联。在潜在的药物–ADRs 组合数量庞大的情形下,我们的目标是在尽可能早的时间点发现这些模式,同时控制假阳性率。
在上市后监测的早期阶段,由于数据量有限,统计推断往往不稳定,表现为估计值极端、变异性增大。为应对这一挑战,本文提出“误差控制相关性”(Error-Controlled Correlation,ECC)的概念,并给出一种计算算法,用于在当前样本量仍然较小的情况下求得最优的相关性估计。ECC 的基本思想是,在给定显著性水平下,找到一个足以拒绝独立性假设的保守估计值。ECC 提供了一个通用框架,可以适配多种不同语义的相关性度量,并力图在现有方法基础上进一步提升早期检测能力。
本文首次将上市后监测问题建模为数据流上的排序问题,在提升相关性模式检测的有效性和效率方面作出了重要贡献。实验结果表明,在相同或更高的检测性能下,ECC 能在显著减少数据观测量的前提下给出更优的药物–ADRs 相关性排序,从而在实践中实现更早的检测。为支持高效计算与迭代更新,本文设计了一种两阶段计算过程,用于在新数据不断到来时进行动态重评估。此外,针对“模式排序”而非“二元检测”的更具挑战性的任务,本文在金标准标注方式、评价指标及逼真数据集模拟等方面也作出了一系列创新设计。
资料来源:
根据Lian Duan等于2025年发表在Informs Journal on Computing题目为《Early Detection of Adverse Drug Reactions in Postmarket Monitoring》的文章缩写整理而成。
(本文责任编辑:陈劭)