《最新肿瘤大数据与真实世界研究中国专家共识(完整版).docx》由会员分享,可在线阅读,更多相关《最新肿瘤大数据与真实世界研究中国专家共识(完整版).docx(33页珍藏版)》请在优知文库上搜索。
1、最新肿瘤大数据与真实世界研究中国专家共识(完整版)摘要肿瘤是需要高度重视的公共卫生问题及社会问题。中国肿瘤患者不仅数量众多,而且在病因、流行病学、疾病谱、治疗方式等方面与西方国家存在较大差异。因此,中国肿瘤相关数据具有自己的特点,如果完全参照西方国家数据,则不能正确反映中国肿瘤防治的真实现状。若能整合、处理、分析中国数据,并在特有病因、发病率、药物敏感性、预后等方面找到规律,将对制定卫生政策、医学研究、疾病预防等起到重大作用。中国抗癌协会肿瘤大数据与真实世界研究专业委员会组织多学科专家,结合国内外文献和临床实践,经过反复讨论修改,基于肿瘤大数据与真实世界研究的背景、分析与管理、方向规划与操作流
2、程、基本设计、质量控制标准、证据级别分类、数据安全与隐私标准等方面,最终形成肿瘤大数据与真实世界研究中国专家共识(2022版),旨在发挥中国肿瘤大数据的优势,开展高质量的真实世界研究,更好地推进中国肿瘤防治工作。【关键词】肿瘤;大数据;真实世界研究;专家共识一.肿瘤大数据与真实世界研究背景近年来,随着人工智能不断发展,数据处理手段不断丰富,医疗机构逐渐积累了总量庞大的医疗数据。电子病历是信息技术发展的重要产物,是医疗数据的主要来源。中国国家癌症中心汇集中国各级肿瘤医院的健康信息系统数据,逐步开展数据规范化治理,标准化存储结构和术语编码,使高质量的大规模真实世界研究有了发展的土壤。1.肿瘤大数据
3、与真实世界研究定义:真实世界研究是指针对预设的临床问题,在真实世界环境下收集与研究对象健康和疾病有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,通过分析,获得药物或相关器械使用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程。真实世界研究可以是观察性研究,也可以是干预性研究。与传统随机对照试验(randomizedcontrolledtrial,RCT)不同,真实世界研究的数据来自真实临床场景,证据外推性好,可用数据量大,研究易于开展,成本相对较低,可帮助研究者发现临床实际情况与理想ReT研究之间的差距。真实世界研究数据来源广泛多样,电子健康档案、移动终端、社交媒体、付费账单、
4、调查问卷等都可以是真实世界数据的来源。抗肿瘤新药和治疗手段层出不穷,但实际应用疗效仍有待考证。虽然每年均有多种用药规范和诊疗指南出台,但并不能覆盖所有患者群体。此外,由于肿瘤的复杂性、异质性,临床实际情况与RCT研究所设定的人群往往有较大差异,RCT研究结果无法完全外推,也不适用于所有临床实际情况。肿瘤治疗经历了漫长的发展历史,从经验医学时代到循证医学时代,临床医学范式也在不断变迁。现代信息科学和治疗技术迅速发展,未来的医学证据模式也将随着真实世界研究和大数据的发展而产生巨大变革。2.国内外真实世界研究现状:20世纪70年代以来,监管部门一直使用真实世界证据来批准罕见疾病的新治疗方案。2016
5、年12月,美国食品药品监督局(FoodandDrugAdministration,FDA)通过的21世纪治愈法案标志着真实世界研究走上更大舞台,允许利用真实世界证据取代传统临床试验进行扩大适应证的批准。美国FDA随后又于2017年8月、2018年7月、2018年12月、2019年9月先后发布了采用真实世界证据支持医疗器械的法规决策、临床研究中使用电子健康档案数据指南、真实世界证据方案框架、使用真实世界数据和真实世界证据向FDA递交药物和生物制品资料,进一步完善了政策体系。同时,欧盟药品管理局、日本药品和医疗器械管理局也在多个层面体现对真实世界研究用于药品研发和监管决策的关注和重视。尽管我国真实
6、世界研究尚处于起步阶段,但发展速度快,政府重视程度高,国家药品监督管理局2020年连续发布真实世界证据支持药物研发与审评的指导原则(试行)、真实世界证据支持儿童药物研发与审评的技术指导原则(征求意见稿)、用于产生真实世界证据的真实世界数据指导原则(征求意见稿)、真实世界数据用于医疗器械临床评价技术指导原则(征求意见稿)等多项指导原则,规定了真实世界证据支持药物研发和监管决策等情形,为国内真实世界研究提供具体指导意见。2019年6月,国家药品监督管理局与海南省政府联合启动临床真实世界数据应用试点工作,具有示范导向作用。真实世界研究登记数量不断增长,截至2020年8月,全球登记真实世界研究共212
7、2项,1020项(48.07%)处于活跃状态,其中中国是真实世界研究申报最为活跃的地区。真实世界研究发展迅速,年发文量逐年稳步增长。19832018年百万级医疗大数据真实世界研究共发文83篇,多数文献集中于近5年,主要研究方向包括增进对疾病或状态的认识、疾病分布情况、药物安全监测、疾病识别、卫生经济学等。3.真实世界研究挑战与机遇:真实世界研究存在许多挑战。在研究设计方面,需选取具有切实临床意义的研究问题,并调用适配度高、样本量足够大的数据集。研究开展方面,真实临床场景中存在复杂多样且难以控制的偏倚,需预先核实数据完整性和准确性,此外,开展跨区域合作时,还需明确数据所有权、访问权限、采集和清洗
8、标准等。基础架构方面,合理部署信息化基础设施是大数据应用的前提,需标准化规范采集数据,不断更新迭代人工智能等方法学逻辑。伦理及安全问题也不容忽视,在医疗大数据应用中,需警惕和重视信息安全与隐私保护,最终目标是在个体隐私保护和数据价值挖掘之间实现平衡。尽管真实世界研究仍为后起之秀,面临诸多挑战,但近几年,支持政策陆续出台,电子病历的管理日益标准化,学界日益关注,中国真实世界研究相关文章发表量逐年上涨,在科学技术和政策的双重推动下,医疗大数据将进入快速发展新时代。二、肿瘤大数据分析与管理(一)可行性评估1 .数据来源可行性评估(1)利用现有数据:现有数据主要包含医疗机构产生的电子病历(electr
9、onicmedicalrecord,EMR)和随访信息,分子生物学检测产生的组学信息,公共部门的电子健康档案、医保数据、出生死亡登记、公共健康监测数据以及区域化医疗数据等,分为可直接利用的结构化数据和需要进行数据提取的非结构化数据。这些数据体量非常庞大,但由于数据的采集并非为某特定研究目的而设计,故数据分散、异质性高,完整性和准确性也有待验证。主动收集的数据,如临床试验的补充数据、实效性临床试验(pragmaticrandomizedclinicaltrialPRCT)、注册登记研究、健康调查、公共健康监测等来源的数据,在收集之前已明确具体研究目的和数据收集目标,数据更加规范、标准、完整、准确
10、。对于特定科研方向的真实世界研究,需要对数据进行可行性评估,主要包括所需数据的覆盖程度以及数据可关联性、准确性、可靠性、完整性和可溯源性等。首先,基于目标研究方向的临床问题确定主要变量,如待研究的干预措施、主要结局、人口学特征、既往病史、实验室信息管理系统(laboratoryinformationmanagementsystem,LIS)和影像学数据等关键变量是否存在;其次,抽样评估或对全数据集评估主要研究变量及其他相关变量的数据缺失情况。(2)获得新增数据:基于待研究的临床科研问题,对现有数据完整度、覆盖度进行评估后,可以进行缺失数据补充。如关键变量整体信息缺失,可通过与数据生产系统重新对
11、接,关联研究人群,补充特定字段;预后信息缺失,可通过医疗机构进行后续随访补充;缺失程度低的变量,可在后续分析步骤通过统计方法进行弥补与校正。2 .研究主题可行性评估(1)确定研究主题:真实世界研究首先需要确定研究对象,即选择暴露组、对照组及设定纳入排除标准。需要评估是否有明确的暴露定义,如有无干预方案、暴露的模式或顺序等。对照组的基本要求是尽可能保证与暴露组具有可比性,即对照人群除未暴露或低水平暴露于研究因素外,其他各种可能影响研究结果的因素或人群特征(年龄、性别、民族、职业、文化程度等)都应尽可能与暴露组分布一致,可通过基线数据分析评估两组均衡性。病例对照比例一般为1:1到1:4不等,需要评
12、估对照组样本量是否充足,应优先选择内对照,次选外对照或总人口对照。(2)选择协变量:协变量的选择应首先综合现有诊疗指南和既往研究结果,对所有观测到的可能与结局相关的基线变量进行初步选择,形成变量集合,再通过数据驱动的变量间相关关系学习,结合专业经验知识及已知危险因素进行筛选,确定纳入分析模型的协变量。3 .数据获取与存储可行性评估(1)数据获取:数据收集前,需明确数据所有权,在获得授权后,通过特定访问方式(特定网络连接方式、指定端口)或加密传输介质进行数据获取,确认同时采集到目标数据的数据结构说明以及编码转化逻辑,保证数据可及性及可操作性。(2)数据存储:采用Hadoop分布式架构与关系型数据
13、库相结合的方式存储,支持PB级数据量快速处理、大规模数据秒级检索,采用安全套接字层协议加密,分离密钥和加密数据,使用过滤器和数据备份等方式,构建安全存储策略。(二)数据质量控制1 .数据清洗:原始数据具有多源异构特性,针对特定临床科研问题,需要进行数据清洗来提高数据可用性。首先制定标准模型,建立统一的数据标准,覆盖研究涉及的变量,将原始数据以标准模型表结构入库,完成字段对照。将原始数据字段按照标准模型字段项进行截取、提取和数据类型转化,非空项为空时,需按照模型中的默认值进行补充。利用数据来源方提供的字典表,将各数据表中的编码转换为预设的标准编码,对数据进行全字段去重,排除重复数据。最后核查数据
14、量,进入标准模型的数据量应与原始数据量保持一致。对于缺失数据,在能够溯源的情况下,尽可能通过数据补充采集进行完善;对于无法溯源的情况,需要明确缺失值的分布情况,判断其分布是否随机,如果为随机,可以通过统计方法进行插补,如有偏倚,则考虑后期分层分析。2 .偏倚和混杂因素控制:研究中的系统误差主要包括信息偏倚、选择偏倚和混杂偏倚。其中,信息偏倚主要来自资料收集和解释过程中的错误信息,可以通过加强研究设计阶段对各种变量的规范定义、标准化数据转换规则、对变量值域进行明确定义等方法进行控制。选择偏倚可以通过严格掌握研究对象的纳入排除标准来控制,减少因特定信息缺失而排除的样本数据对实验结果的影响,同时确保
15、对照组和病例组的基线可比性,如年龄、性别、病情严重程度、经济状况等,也可采用多种对照,以减少选择偏倚对结果的影响。混杂因素控制方面,在研究设计阶段对研究对象的入排标准加以限制可以初步控制混杂偏倚。如果混杂变量数较少,可以通过匹配和统计学调整控制混杂偏倚,以测量风险因素对结局的真实影响。针对较多混杂变量的情况,可以采用倾向性评分的方法,在一定协变量条件下,实现对多种混杂因素的控制。(三)分析方案1 .分析方案管理开展真实世界研究需要确定临床研究问题,对现有数据进行评估,随后进行研究方案设计与选择、确定统计分析方法、结果解释与再评价。为了减少潜在的偏倚,需要谨慎而周密的研究设计方案,并且应在确定研
16、究问题后尽早开始制定研究方案和统计分析计划。临床数据分析通常会围绕着病因、诊断、治疗、预后及临床预测等相关研究问题展开。病因研究主要是研究危险因素与疾病之间的关系及发病机制。诊断试验主要是研究某类新方法对特定疾病诊断的准确度,以判断其临床应用价值。治疗性研究主要是研究某类治疗方案对特定疾病的疗效及不良反应。预后研究是对疾病不同发展结局的可能性预测,以及研究影响预后的因素。目前,临床上真实世界数据研究包括观察性研究和试验性研究。观察性研究包括病例个案报道、单纯病例研究、横断面研究、病例对照研究和队列研究。2 .传统统计模型肿瘤大数据常用医学统计模型有线性回归模型、logistic回归模型、Cox比例风险回归模型等。传统统计分析是基于样本数据分布的假设对样本数据进行基本描述,主要通过在有限时间内观察随机过程来推断事件发生的概率。相比之下,机器学习算法能够通过丰富的数据学习方法概括数据特征、预测数据结