> **来源:[研报客](https://pc.yanbaoke.cn)** # 真实世界数据库构建标准指南总结 ## 一、总则 本指南旨在建立一套标准化、可量化、可追溯的数据治理与分析体系,以应对医疗大数据在科研转化中的复杂挑战,确保数据资产的规范化管理与高效利用。 ### 主要目的 - 解决数据采集进度失控、数据质量参差不齐、关键数据缺失与错乱、数据标准未履行等问题。 - 构建统一的科学数据基础设施,服务于多种医学与管理目标。 ### 适用范围 - **数据采集对象**:涵盖全国范围内的“三医联动”数据治理体系,包括卫生健康、医疗保障、药品监管等系统的临床诊疗、医保结算、药品不良反应等数据。 - **数据类型**:包括结构化、非结构化/半结构化数据。 - **应用场景**:适用于流行病学研究、临床试验设计辅助、真实世界研究(RWS)、精准医学分析、卫生技术评估、智慧医疗等。 ## 二、真实世界数据库构建规范 ### (五)数据采集范围 1. **医疗机构数据** - 采集系统:HIS、LIS、PACS、EMR - 关键数据元:患者基本信息、门诊/住院记录、病案首页、医嘱明细、检验检查结果、手术操作记录、护理记录等 2. **医疗保障数据** - 采集系统:医保结算平台 - 关键数据元:医保结算清单、费用明细、医保版疾病诊断编码、药品目录匹配数据、异地就诊结算数据等 3. **药品监管数据** - 采集系统:药品不良反应监测系统 - 关键数据元:药品不良反应监测数据、药物警戒信号、药品流通追溯数据、药械注册信息等 4. **其他数据** - 包括人口基础信息、户籍登记、死亡注销、婚姻登记、社会救助、殡葬服务、区域人口统计、环境监测等,用于补充患者全生命周期数据。 ### (六)构建业务镜像库 - **定义**:业务镜像库是对源业务系统的数据备份,数据模型与业务系统保持一致。 - **流程**: 1. 建立连接(使用 JDBC 或 RESTful API 等技术) 2. 编写采集脚本并定期自动运行 3. 实施增量更新机制,仅采集变化数据 4. 构建患者主索引(EMPI)以实现跨系统数据关联 5. 进行不可逆脱敏处理 ### (七)构建标准资源库 - **定义**:基于资源通用数据模型(RCDM),对多源异构数据进行标准化组织与存储。 - **流程**: 1. 数据映射:建立源与目标数据模型的映射关系 2. 数据清洗:包括格式转换、通用计算、字典映射等 - **质控重点**:确保数据业务逻辑合理性与一致性,建立多表交叉校验机制。 ### (八)构建观察数据库 - **定义**:将疾病、药品、手术、检验等数据进行标准化处理,清洗非结构化文本数据。 - **流程**: 1. 数据标准化:依据国家标准完成疾病、药品、手术、检验编码归一化 2. 文本结构化:通过医学知识组定义规则,拆分非结构化文本信息 - **质控重点**:验证编码映射准确性与文本解析正确性,确保数据归一化与标准化。 ### (九)构建科学变量库 - **定义**:涵盖社会/经济/环境/地理、疾病、手术、药品、检验、术语、中医症候等业务域,包含超过10万+数据变量。 - **流程**: 1. 创建变量集、变量组和变量 2. 数据变量构建与治理:定义、分类、审核、更新 - **质控重点**:确保变量定义规范性、关联关系准确性、生成逻辑合理性,建立多级审核机制。 ### (十)构建科学数据库 - **定义**:基于科学通用数据模型(SCDM)组织存储,面向全域人群的纵向数据队列仓库。 - **流程**: 1. 变量加工:生成查询、取值、值域转换脚本 2. 数据转换:将变量数据映射至科学数据任务库 3. 生成科学数据队列仓库:支持数据血缘关系追溯与可视化展示 - **质控重点**:验证变量加工逻辑、数据转换映射、队列生成准确性,排查脚本错误、数据丢失、结构异常等问题。 ## 三、安全与隐私保护 ### (十一)隐私保护技术 1. **不可逆脱敏与受控追溯** - 所有数据脱敏操作不可逆,仅允许在特定物理隔离机制下进行反向追溯。 - 移除或泛化18类直接标识符(如姓名、身份证号等)。 2. **隐私计算技术** - 对极度敏感数据采用联邦学习等隐私计算技术,实现“数据不动模型动,数据可用不可见”。 ### (十二)数据安全运维 1. **分级分类存储与隔离** - 普通科研数据存储于分析区,敏感数据存储于绝密区并加密。 - 建立网络安全隔离区,控制内外网数据交换。 2. **权限控制与审计** - 实施基于角色的访问控制,遵循最小够用原则。 - 建立全链路审计日志,记录所有数据操作行为,保存至少5年。 ## 四、术语与定义 ### (十三)真实世界研究(RWS) - 在真实医疗服务环境中,利用真实世界数据开展关于医疗干预措施的研究,涵盖队列研究、病例对照研究、横断面研究、注册研究等,区别于传统随机对照试验(RCT)。 ### (十四)真实世界数据(RWD) - 在日常医疗照护、公共卫生管理、医保支付等非试验性场景中收集的数据,如电子病历、医保结算数据、疾病登记数据、药品不良反应监测数据等。 ### (十五)真实世界证据(RWE) - 通过对真实世界数据进行系统分析,获得医疗产品的使用模式、疗效、安全性及经济性的临床或决策证据,用于支持药物和医疗器械的研发、监管决策等。 ### (十六)通用数据模型(CDM) - 一套标准化的数据模型和编码规范,用于实现多源异构数据的语义与结构统一,支持多中心数据整合与跨机构分析。 ### (十七)JDBC (Java Database Connectivity) - Java 编程语言用于连接、查询和操作关系型数据库的标准 API,支持数据库无关性与数据访问标准化。 ### (十八)患者主索引(EMPI) - 用于唯一识别和管理患者身份的核心索引系统,通过算法和规则实现跨系统数据去重、合并与关联。