利用深度学习模型和行政理赔数据对不同患者特征的医疗费用进行预测-智慧医养研究动态

登录注册

智慧医养研究动态

newsletter for smart senior care and health care

学术动态

您当前的位置： > 动态研究 > 学术动态

利用深度学习模型和行政理赔数据对不同患者特征的医疗费用进行预测

期号：2026-02 总146期

Mohammad Amin Morid^1,* ，Olivia R. Liu Sheng²

（1. Department of Information Systems and Analytics, Leavey School of Business, Santa Clara University, Santa Clara, CA, USA，

2. Department of Information Systems, W. P. Carey School of Business, Arizona State University, Tempe, AZ, USA

编者按：

本文聚焦医疗支付体系中一个长期存在却始终难以解决的核心问题——如何在高度异质的患者群体中，实现既准确又公平的医疗费用预测。Morid 与 Sheng 以美国 Medicare 行政理赔数据为研究对象，指出现有风险调整模型和深度学习方法在高需求（High-Need, HN）患者身上普遍存在预测偏差，进而导致系统性的过度支付与支付不足。文章从社会—技术系统视角出发，提出一种面向多源、异质理赔数据的通道化深度学习框架，并在真实大规模数据上系统验证其在预测性能与支付公平性上的双重改进，为医疗成本预测与算法公平研究提供了具有实践价值的解决方案。

本文首先从医疗支付制度背景出发，阐明准确的患者年度费用预测在按人头付费（capitation payment）和风险调整模型（Risk Adjustment Models, RAMs）中的关键作用。由于少数高需求患者贡献了医疗系统中绝大部分支出，预测模型若无法准确刻画这类患者的真实成本，将直接导致支付失衡：一方面，低估高需求患者的费用会使医疗计划缺乏足够资源提供高质量服务；另一方面，高估健康患者的费用又会激励保险机构“择优选择”低风险人群。作者指出，这种结构性问题并非仅源于模型能力不足，而与行政理赔数据本身所蕴含的高度异质性密切相关。

随后，文章系统分析了行政理赔数据（Administrative Claims, AC data）的生成机制及其带来的建模挑战。与电子病历不同，理赔数据来自多个医疗与药房提供方，记录粒度通常为“天”，同一日内可能混杂来自不同机构、不同医疗目的的诊断与用药信息，且缺乏事件顺序与明确的因果关联。这种“无序、多源、语义混杂”的数据特性在高需求患者身上尤为突出，使得传统基于聚合特征或单通道序列建模的方法难以有效学习患者真实的医疗轨迹。

在此基础上，作者提出了一种通道化（channel-wise）的深度学习预测框架，以应对理赔数据中的多维异质性。该框架将不同类型的信息——诊断代码、操作代码、用药代码以及对应的医疗与药房费用——分别建模为独立通道，每个通道内部使用预训练的 Doc2Vec 对每日理赔事件进行表示学习，并通过双向 GRU 网络捕捉时间依赖结构。随后，引入注意力机制对不同时间点的重要性进行加权，最后将各通道的高层表示融合，用于预测患者下一年度的总医疗费用。这种设计的核心思想在于：先在相对同质的信息空间中学习稳定表示，再进行跨通道整合，从而降低由异质数据混合带来的噪声。

在实验部分，作者使用了两个真实世界的大规模 Medicare 数据集（分别包含约 11 万与 13 万名患者），系统比较了所提出方法与多种传统机器学习模型及现有深度学习方法的表现。结果表明，通道化模型在总体预测误差上相较最强基线方法平均降低约 23%，同时显著减少了系统层面的过度支付与支付不足。更重要的是，这种改进并非均匀分布，而是在高需求患者群体中表现得尤为明显，验证了该方法在缓解结构性支付不公平方面的潜在价值。

为了进一步分析模型在不同患者异质性水平下的表现，文章还提出了一种基于多通道熵的患者异质性度量方法，用以刻画患者医疗轨迹在代码类型、来源与时间维度上的复杂程度。实验结果显示，该数据驱动的异质性指标能够有效近似传统基于医学知识定义的患者严重程度分层，并揭示出模型性能提升与患者异质性之间的正相关关系：患者医疗路径越复杂，通道化模型相对于传统方法的优势越明显。

总体来看，本文通过将社会公平目标与技术建模设计紧密结合，系统展示了如何利用通道化表示学习缓解行政理赔数据中的异质性问题，并在此基础上同时提升预测准确性与支付公平性。该研究不仅为医疗费用预测提供了一种可扩展的深度学习框架，也为在其他高风险、强异质性场景中设计公平且高性能的预测模型提供了具有启发意义的思路。

资料来源：

根据Mohammad Amin Morid和Olivia R. Liu Sheng于2025年发表在Information System Research题目为《Healthcare cost prediction for heterogeneous patient profiles using deep learning models with administrative claims data》的文章缩写整理而成。

（本文责任编辑：蒋新宇）

【打印】

上一条: 类人还是类机器？拟人化框架如何塑造老年人对健康人工智能的态度

下一条: 网络媒体与大语言模型中的年龄与性别扭曲现象

京ICP备18021587号-6