专家笔谈 | 中国国家罕见病注册系统数智化升级与临床应用
中国罕见病联盟
自2016年至今,中国国家罕见病注册系统(NRDRS)的建设为中国罕见病的基础和临床研究积累了大量宝贵的病例数据和生物样本资源。然而,面临罕见病临床诊疗过程中不断出现的新挑战,单纯的数据和资源平台已难以满足临床工作的全部需求。在此背景下,本团队围绕NRDRS平台的核心功能点设计系统优化和升级方案,目标是使用数智化技术将NRDRS建设成为具有罕见病多模态数据集成融合与辅助诊疗功能的新平台,具体可概括为“1个平台和4类工具”的研发与建设。NRDRS平台、罕见病基因型-表型智能分析工具、罕见病人工智能辅助诊断工具、罕见病远程多学科诊疗与教学工具、罕见病药物筛选与验证工具已经完成升级和研发,如何推动这些工具在临床场景中进行应用,改变罕见病诊疗资源配置严重不均衡的现状是下一阶段工作的重点方向。本文将详细介绍NRDRS的数智化升级和在临床场景中的应用探索,以及未来的发展方向。
全球经济飞速发展推动了人类对疑难和罕见疾病的关注。自1983年美国颁布《孤儿药法案》[1-2],将“罕见病”的概念引入公众视野以来,世界许多国家和地区开始以全社会的力量推动罕见病诊疗研究、药物研发和患者保障工作。2021年12月,世界卫生组织正式将罕见病认定为全球健康优先事项[3],标志着罕见病在全球健康议程中的地位得到国际社会的认可与重视。
中国罕见病诊疗和研究工作起步较晚,且基础十分薄弱[4]。2015年,原国家卫生和计划生育委员会成立第一届罕见病诊疗与保障专家委员会,从基础研究、药物研发、诊疗提升、社会保障等多方面入手,推动中国罕见病诊疗与保障事业的发展[5]。为快速积累全国罕见病患者数据,初步摸清疾病负担,2016年,在“十三五”国家重点研发计划的资助下,中国医学科学院北京协和医院牵头建立中国国家罕见病注册系统(National Rare Diseases Registry System of China,NRDRS)平台[6-8]。秉持着“规范、开放、长期、发展”的原则,平台以建设多病种罕见病临床队列为抓手,以采集患者临床数据和生物样本资源为基础,以支撑罕见病研究为手段,以期实现提升中国罕见病诊疗研究能力的总目标。
1NRDRS平台建设现状与问题分析
自2016年建设以来,NRDRS平台已完成罕见病病例信息和生物样本资源的初步积累。截至2024年底,建成覆盖29个省、自治区、直辖市107家顶尖高校和医疗机构的研究协作网络。围绕罕见病临床注册登记工作,NRDRS平台实现对患者结构化数据的采集、存储、管理与查询;实现对部分非结构化数据(如临床检查报告、照片、文档等)的存储;数据采集方式包括个人电脑端(PC端)手工录入和系统后台导入两种模式;在数据采集过程中,以“程序限定”的方式对具有固定格式、固定数值范围、固定逻辑关联的数据进行质量控制,保证数据的可靠性,可基本满足基于注册登记的罕见病队列研究工作的需求。
然而,在NRDRS平台建设和队列研究过程中,本团队也发现一些问题和不足:①罕见病研究涉及患者多维度的数据,不同类型、不同模态数据的采集、存储和管理方式存在较大差异,数据间融合困难也阻碍了数据共享和价值挖掘;②近80%的罕见病是遗传性疾病[9],但目前缺乏对基因测序数据的规范化解读方案,不同机构间遗传分析报告的异质性给疾病准确诊断和有效治疗带来挑战;③罕见病诊断困难,临床医师诊断能力的缺乏或不足常造成疾病的漏诊和误诊;④区域间诊疗能力的差异使患者更倾向异地就医,由此造成的高失访率降低了患者对治疗和康复的可及性和依从性;⑤罕见病临床研究与药物研发脱节,研究成果未能及时进行临床转化应用。
2NRDRS平台升级目标与方案
针对发现的问题,本团队围绕NRDRS平台的五大核心功能点构建系统优化和升级方案,目标是使用数智化技术将NRDRS建设成为具有罕见病多模态数据集成融合与辅助诊疗功能的新平台,具体概括为“1个平台和4类工具”(表1)。
中国医学科学院北京协和医院作为牵头单位,联合深圳华大生命科学研究院、上海市儿童医院、中国科学院上海药物研究所、首都医科大学附属北京儿童医院、四川大学华西医院、上海交通大学医学院附属上海儿童医学中心、清华大学和神州医疗科技股份有限公司组成研发攻关团队,遵照“数据安全、用户友好、功能完善”的总体原则,团队明确了数智化建设的基本思路,具体包括:①提高队列研究表单设计、配置、调整的灵活性;②提高系统的易用性和友好性;③提高多维数据的兼容性;④提高操作流程的可溯性;⑤提高网络信息和数据的安全性。该工作也获得“十四五”国家重点研发计划的持续资助。
3NRDRS平台优化与升级成果
3.1NRDRS平台的升级与优化
平台的升级与优化从注册登记研究的发起、实施和管理3个场景入手,共包含8项内容(表2)。具体如下:①新增“药物/器械注册登记研究”和“政策评价注册登记研究”模块,与原有的“临床注册登记研究”构成三位一体的罕见病注册登记研究体系;②实现“自适配”信息采集表单设计。研究者可使用平台“表单元素库”自主完成表单的开发与调整,也可根据研究需要自主构建表单元素,扩充“表单元素库”;③实现PC端、移动端APP(研究者端和患者端)、微信小程序端多渠道信息采集,并根据患者身份识别信息完成数据的自动匹配归档;④增加对语音、文本、图像、影像、基因测序等多模态数据的兼容性,并搭载多模态数据解析工具和标注工具,帮助研究者完成多模态数据的后结构化处理和解读分析;⑤建立基于移动端APP和微信小程序端的患者随访和管理体系,实现远程随访、健康管理和风险预警等功能;⑥完善平台数据质量控制体系,包含“程序限定”“警戒值预警”“质控专员核查与质疑”3种方式;⑦实现数据在线检索、统计汇总与结果可视化,提高数据查阅、调取和管理效率;⑧建立研究者需求在线申请和流转路径,确保流程规范和数据安全,通过节点留痕,确保工作可查阅、可追溯、可复原。
3.2罕见病基因型-表型智能分析工具研发
通过搜集和整理中国人群中涉及心脑血管系统、免疫系统、神经肌肉系统等53类罕见病(表3)的患者外显子二代测序数据,建立中国人群罕见病基因变异集合,包括编码区最小等位基因频率(minor allele frequency,MAF)<1%的错义突变134 806个,无义突变3051个,剪接突变1569个,移码突变3389个;同时,利用约20种公开的注释知识库、频率数据库、罕见病知识库、变异-疾病知识库、基因-疾病知识库、表型知识库、疾病药物知识库等,构建包含41 637条基因信息、16 613条表型信息、43 260个突变信息的基因型-表型知识库,并使用该知识库为上述中国人群罕见病基因变异集合进行功能注释,形成中国人群罕见病基因变异数据库。

在数据库的基础上,本团队利用图嵌入算法、深度学习算法和大语言模型研发了中国人群基因型-表型智能分析框架(内含4种核心分析工具),应用框架内含的工具有效改善了基因测序数据解读的规范性和同质性,并极大提升了解读的效率。智能分析框架
3.3罕见病人工智能辅助诊断工具研发
本团队以儿童医院数据资源为基础,结合国内外医学数据库、科研文献等资源,建立以指南-在线人类孟德尔遗传(Online Mendelian Inheritance in Man,OMIM)为参考,涵盖患者基本人口学信息、病史、临床表型、基因信息、治疗、流行病学资料等内容的知识图谱,并由临床医生结合实际诊疗经验对图谱内容进行修正。知识图谱包括3类症候群的病种,第一类为性发育异常症候群,覆盖19种罕见病;第二类为贫血症候群,覆盖5种血液系统罕见病;第三类为非感染性肝功能损伤症候群,覆盖4种罕见病。
为了构建更全面的罕见病知识库,本团队从《中国第一部罕见病目录释义》[10]中手动提取了罕见病与表型之间的关联,构建了包括144种疾病和4258个疾病表型注释的知识库,并通过等价映射关系与OMIM和Orphanet数据库进行融合。融合后的知识库包含9260种疾病、8930种表型和168 780个表型注释。以该知识库为数据基础,研发基于表型信息的深度学习辅助诊断框架,即PhenoBrain,为罕见病提供鉴别诊断支持。
3.4罕见病远程多学科诊疗与教学工具研发
本团队构建了基于NRDRS平台的罕见病远程多学科协作机制和会诊工具,利用互联网和数智化技术紧密连接协作网内各医疗机构、诊疗专家研究者和罕见病患者,打破了罕见病诊疗多方协作的时空限制。完成会诊后,根据患者的病情和治疗方案制订随访计划,利用患者端APP和微信小程序端实现患者的远程追踪和管理。患者可通过APP和微信小程序端上传病情信息,并能与医生建立联系,及时获得下一步治疗和康复指导。患者会诊和随访获得的信息将在NRDRS数据库中存档,以备查阅。
3.5罕见病药物筛选与验证工具研发
为加速临床研究结果向药物研发的转化应用,本团队研发了人工智能辅助药物设计工具。该工具针对罕见病特异性突变位点和潜在药物靶点开展化合物虚拟筛选,实现化合物结构预测与优化、药物设计和分子动力学模拟。基于该工具,完成对化合物CS0159的验证,该化合物以“进行性家族性肝内胆汁淤积症”为适应证,目前已在国内外同步开展临床试验。
4NRDRS平台应用探索
超大规模人群队列建设已成为国家重要的科研战略布局,队列研究的开展为病因探索、病理机制的人群验证、疾病风险预测、预防干预措施效果评估等提供了丰富的人群证据,极大地推动了中国临床医学、公共卫生、医药工程等领域的快速发展。NRDRS平台的优化升级与持续扩容,补齐了中国罕见病队列研究这一关键板块,也为罕见病基础和临床研究积累了宝贵的病例和生物样本资源。目前,平台的应用主要集中在罕见病临床研究支撑和罕见病诊疗资源配置优化两个方面。
4.1支撑罕见病临床研究
截至2024年12月,NRDRS平台共支持建立了245个罕见病研究队列,覆盖214种/类罕见病,注册罕见病患者92 493例,对其中41 767例患者开展定期随访;除结构化数据外,扩充了多模态数据,完备保存26 500例患者的生物样本(全血、血浆、血清、尿、便、机体组织等),采集28 069例患者的基因测序数据,140例患者的全部核磁影像数据,29例患者的核医学检查数据,118例患者的CT检查数据,8730例患者的详细临床检查报告;参与平台工作的协作单位数量也增加到107家。在罕见病临床注册登记研究的基础上,开展了用于上市后评价的药物注册登记,首批针对地夫可特(适应证为杜氏肌营养不良症)、氯巴占(适应证为Lennox-Gastaut综合征)、羟钴胺(适应证为甲基丙二酸血症)三类药物启动患者登记工作。NRDRS平台的建设很好地支持了基于注册登记的临床试验和临床研究的开展,推动罕见病知识和诊疗方案的革新。以北京协和医院为例,截至2023年底,医院19个临床与医技科室共开展临床试验175项,涵盖53种/类罕见病;首次报告了中国肺动脉高压遗传图谱和中国人心肌病热点基因谱[11-12],其中,新发现的中国人群肺动脉高压的致病基因BMP9[11],作为早期诊断和筛查指标写进诊疗指南;建立或完善了呼吸系统、免疫系统、泌尿系统罕见病的诊断技术和体系。
4.2优化罕见病诊疗资源配置
与常见病相比,区域间和机构间罕见病诊疗能力差异较大,诊疗资源配置也不均衡,常面临诊断困难甚至误诊和漏诊;且病例散在分布,难于募集和管理。因此,NRDRS在作为资源平台的同时,还需积极推动罕见病诊疗能力提升和患者管理。为此,通过整合多种罕见病知识库和数据库、遗传数据解读工具、疾病预测工具、数智化培训工具和远程随访工具,NRDRS成为集知识推广、辅助决策、诊疗协作、教学培训和医患互动为一体的综合应用平台(图1)。利用该平台,患者可以获得覆盖早期筛查、预诊分诊、疾病确诊、治疗康复、随访评估的全周期服务;医生可以开展知识学习、技能培训、辅助决策、诊疗协作和患者管理;研究者可以进行数据治理、报告解读、表型分析、成果转化等相关研究工作。真正实现基于平台的多方服务和多方获益。本团队以一例罕见病患者就诊为例,简要介绍平台的应用流程。首先,采用大模型对患者自助问诊,获取患者的主诉、病史等信息,并辅助医生书写规范病案;然后使用PhenoBrain等工具提取病案中的表型信息,并基于表型进行初诊;如患者进行了基因测序,利用平台搭载的基因分析工具完成测序结果的快速解读,并将分析结果和表型信息共同导入疾病预测工具,完成基于基因-表型的诊断预测,预测结果将根据概率“从大到小”进行排序,辅助医生做出最终诊断;对于复杂病例,可在线继续申请多学科会诊,通过线上、线下多学科专家的充分讨论,明确诊疗方案;最后,全流程诊疗信息将回传NRDRS平台存储。在诊疗过程中发现的疾病特异性突变位点和潜在药物靶点,利用药物筛选工具进行化合物筛选,快速启动药物研发工作。

5结语
NRDRS平台的建设和应用持续推动了中国罕见病诊疗和研究工作的发展,从单纯数据平台向多模态数据融合与辅助诊疗平台的转变更是为罕见病诊疗、患者管理和社会保障带来新的实践范式。当前,基于NRDRS平台的罕见病患者诊疗和管理全流程的优化,将割裂的、以“点状”存在的罕见病筛查、罕见病诊断、遗传咨询、多学科会诊、随访管理、健康教育进行整合集成,实现罕见病患者诊疗和管理“由点到线”的应用实践。未来将持续以NRDRS综合应用平台为触手,横向连接具有不同种类罕见病诊治优势的医疗机构,建立协作关系;纵向贯穿省、市、县的各层级医疗机构,建立服务支持体系,打破罕见病诊疗资源分布不均衡的现状,完成罕见病患者诊疗和管理“由线到面”的扩展,并最终实现罕见病诊疗优质资源配置和高效服务提供“横向到边、纵向到底”的根本目标。为充分发挥数智化技术带来的优势,团队在宏观层面也提出DI-HEALTH理论框架(Digital Intelligence-driven, multilevel hospital, accessible, affordable, collaboration, full-cycle health care),即以数智化技术为驱动,以NRDRS平台为核心,打破患者和诊疗资源分布的时空限制,整合多层级医院与多种类技术,为罕见病患者提供可及、可负担的全周期医疗照护服务。应充分利用好NRDRS平台已经形成的资源优势和规模优势,将优质罕见病诊疗资源向基层和边远地区医疗机构进行推广,实现对更多罕见病患者的“能发现、能治疗、能管理”,走好“健康中国”之路的最后也是最难的一公里!
作者贡献:郭健负责撰写初稿、文献查阅与信息提取;金晔、刘鹏、张丁丁负责检索相关文献、修订论文;陈丽萌、朱以诚对文章进行审阅并提出修改意见;张抒扬提出选题思路,并终审校对。
利益冲突:所有作者均声明不存在利益冲突。
志谢:感谢深圳华大生命科学研究院方晓东教授团队、上海市儿童医院于广军教授团队、中国医学科学院北京协和医院张文教授团队、中国科学院上海药物研究所徐华强教授团队、首都医科大学附属北京儿童医院张国君教授团队、四川大学华西医院陈永平教授团队、上海交通大学医学院附属上海儿童医学中心张浩教授团队、清华大学陈挺教授团队和神州医疗科技股份有限公司史文钊教授团队在NRDRS平台优化、数据治理、知识库构建、工具研发、临床转化应用等工作中的倾力付出和鼎力支持!感谢参与NRDRS平台建设和罕见病队列研究的所有研究者和技术人员!
参考文献
[1]U.S. Food & Drug Administration. Orphan Drug Act [EB/OL]. (2013-08-01) [2019-03-14]. http://www.fda.gov/ForIndustry/DevelopingProductsforRareDiseases Conditions/HowtoapplyforOrphanProductDesignation/ucm 364750.htm.
[2]Herder M. What is the purpose of the orphan drug act?[J].PLoS Med, 2017, 14(1):e1002191.
[3]United Nations.Addressing the challenges of persons living with a rare disease and their families: resolution/adopted by the General Assembly[EB/OL] (2022-01-05)[2024-12-14]. https://digitallibrary.un.org/record/ 3953765?v=pdf.
[4]Zhang S, Chen L, Zhang Z, et al. Orphan drug development in China: progress and challenges[J]. Lancet, 2019, 394(10204):1127-1128.
[5]国家卫生计生委办公厅.国家卫生计生委办公厅关于成立国家卫生计生委罕见病诊疗与保障专家委员会的通知(国卫办医函〔2015〕1163号)[EB/OL].(2015-12-24)[2016-01-04]. www.nhc.gov.cn/yzygj/s7659/201601/c918591a06154c1ea193fc32ba93c085.shtml.
[6]Guo J, Liu P, Chen L, et al. National Rare Diseases Registry System (NRDRS): China's first nation-wide rare diseases demographic analyses[J]. Orphanet J Rare Dis, 2021,16(1):515.
[7]郭健,吕浩涵,李杰,等. 中国国家罕见病注册系统架构和数据质量控制及管理流程[J]. 中国数字医学, 2021,16(1): 17-22.
[8]郭健,刘鹏,荆志成,等. 中国国家罕见病注册系统建设及应用[J]. 罕见病研究,2022,1(1):7-12.
[9]Trabacca A, Russo L. Children's rare disease rehabilitation: from multidisciplinarity to the transdisciplinarity approach[J]. Eur J Phys Rehabil Med, 2019, 55(1):136-137.
[10]张抒扬.中国第一批罕见病目录释义[M]. 北京:人民卫生出版社,2018.
[11]Wang XJ, Lian TY, Jiang X, et al. Germline BMP9 mutation causes idiopathic pulmonary arterial hypertension[J]. Eur Respir J, 2019, 53(3):1801609.
[12]Wu W, Lu CX, Wang YN, et al. Novel phenotype-genotype correlations of restrictive cardiomyopathy with Myosin-Binding Protein C (MYBPC3) gene mutations tested by next-generation sequencing[J]. J Am Heart Assoc, 2015, 4(7):e001879.


