大数据与人工智能的成功为智慧医疗提供了前所未有的机遇。在过去的十年中,患者在住院期间不断产生大规模数据如电子健康记录(Electronic Health Record,EHR)。世界卫生组织制定了国际疾病分类(International Classification of Diseases,ICD)代码并被广泛用于分析临床数据和监测健康问题。ICD作为分层分类标准,包括了疾病、身体状况、外部因素和临床表现等信息,能够将患者的住院过程规范为标准化、统一和可共享的格式。
在目前的实际应用场景中,ICD编码是由经过专门培训的编码人员进行手动编码的。为了缩短手动编码时间提高编码效率,研究人员在自动或半自动识别ICD编码方面做出了许多努力,从基于规则的方法到实施传统机器学习的方法都做了尝试,不过,这些基于机器学习方法的有效性和准确性仍有很大的提升空间。由此,人们越来越关注深度神经网络,例如将递归神经网络、卷积神经网络和图神经网络等应用于ICD编码识别任务中。尽管这些方法在一定程度上比传统方法能够得到更好的性能,但它们远没有人为干预的ICD编码识别精确率高。当前,应用深度神经网络在ICD识别任务中存在的严峻挑战是:ICD分类法具有非常大的标签空间,而巨大的标签空间带来了数据稀疏和可扩展性的问题,此外,标签表现出幂律分布,也就是说、少数代码对应常见疾病,而其余代码仅在极少数情况下使用,这导致在识别罕见疾病时候,模型效果较差。同时,ICD在不同的医疗健康记录文档中格式或内容记录存在较大差异,这同样加大了ICD识别任务的难度。
而以ChatGPT为例的大型生成式AI模型在无需任何培训的情况下能够成功通过美国医疗执照考试(USMLE)。在此背景下,Anthony等学者在发表于《Journal of Medical Systems》的研究中指出ChatGPT非常适合解决教科书式或类似标准化识别的临床问题。因此,我们可以大胆猜测,以ChatGPT为例的大型生成式AI模型能够在识别ICD编码任务上与之前的识别效果相比有更高的精确度和更好的表现。
当前,医生、护士、人类编码员、其他医疗保健管理专家和保险公司都在他们的工作中使用ICD代码。我们期待更加优秀的算法能够在临床文档中更好的识别ICD编码,帮助医务人员减轻负担。这对于医疗辅助诊断以及医学信息标准化都具有重要的意义。
主 编 张卓越
2023年9月1日于北京