《病原宏基因组高通量测序性能确认方案.docx》由会员分享,可在线阅读,更多相关《病原宏基因组高通量测序性能确认方案.docx(16页珍藏版)》请在优知文库上搜索。
1、病原宏基因组高通量测序性能确认方案病原宏基因组测序(metagenomenext-generationsequencing,mNGS),基于宏基因组学和高通量测序技术,可对各种临床标本中所有的病原体(包含细菌、真菌、病毒、寄生虫、支原体/衣原体等)进行无差别检测1,2omNGS适用于各种病原体的鉴定,特别是未知新发病原体,如新型冠状病毒等3,4,故在新发突发、复杂及混合感染的病原体实验室诊断中,有望提供重要的病原学诊断依据。由于mNGS仍然是一项较为前沿的技术,绝大部分相关研究多聚焦于其临床应用价值评价,分析性能确认领域相对空白5,6,7o鉴于mNGS测序的湿实验和干实验过程涉及的试剂、数据库
2、、软件等暂无标准化要求,不同实验室病原宏基因组检测流程采取的方案存在一定差异8,9,10o因此,在实验室开展临床检测前,建议遵照美国临床实验室改进法案修正案(C1.iniCa1.1.aboratoryImprovementAmendments,C1.IA)和美国病理学家协会(Co1.IegeofAmericanPathoIogists,CAP)实验室管理相关指导文件,同时参考国家药品监督管理局(Nationa1.MedicaIProductsAdministration,NMPA)、中国合格评定国家认可委员会(ChinaNationa1.AccreditationServiceforConfo
3、rmityAssessment,CNAS)和美国食品药品监督管理局(U.S.FoodandDrugAdministration,FDA)等机构对体外诊断试剂认证原则,进行NGS的性能确认11o本文立足于北京协和医院检验科mNGS的建设经验和国内外相关研究,提出临床开展前的单中心性能确认方案(图1)O疾病:呼吸道感染标有:肺泡灌洗液检测范画“8(%哧原侪生信分析流程的建立:数据库搭建分析流程搭建 新发病原体识别生物信息分析流程性能确认:制备模拟标本盘 最低数据量评估 准确率 召回率 精确率F1.-Scoiu病原宏基因组实验流程建立:核酉勰取效率 去主 最低数据量 试剂及环境背景,性能确认参考盘制
4、备:代表性病原&IPCR定量性能参数的评估:BA1.F相关背景核酸阳性判断阈值最低检出限精密度稳定性抗干扰交叉干扰准确性图1协和方案流程图一、检测标本类型和病原体范围mNGS检测涉及标本类型、检测流程和病原体众多。因此医院在mNGS方法学建立和性能确认时,建议根据临床预期用途,确定标本类型和病原体范围1,5o呼吸道感染是重要的感染性疾病之一,中国每年有约400万人次重症肺炎患者。国内的一项重症医学研究结果表明,超过60%的脓毒症患者由肺炎诱发8。而细菌、真菌、病毒引起的肺炎多以侵染终末细支气管、肺泡等结构为主,因此肺泡灌洗液(bronchoaIveoIarIavagef1.uid,BA1.F)
5、的病原学检测结果准确性更高12,13o除此之外,BA1.F中定植菌和宿主细胞组成相对复杂,病原类别涵盖细菌、真菌、病毒、寄生虫和非典型病原体等。所以BA1.F标本可作为全面评估mNGS的代表性标本类型。mNGS具有对不同病原体进行无偏倚检测的潜力,但评估数万种微生物的实验计划存在较大难度,有针对性地对临床重点关注的病原体进行有效性评估可行性更高。同时,建议参考传统的商品化分子生物学检测试剂的性能指标,以建立相对合理的mNGS分析性能。例如:细菌的最低检测限不高于3OOcr4000菌落形成单位(co1.onyformingunits,CFU)/m1.,病毒的最低检测限不高于1OOO拷贝数/m1.
6、14,15。协和方案:(1)优先选择BA1.F标本作为mNGS性能确认的样本类型;(2)参考约翰霍普金斯大学ABX指南、临床微生物学手册(第十二版)和哈里森感染病学(第七版),筛选导致肺炎的80种常见病原体;(3)细菌和病毒最低检测限建议达到1000拷贝/m1.或更低水平。二、mNGS生物信息分析流程建立病原宏基因分析主要涵盖以下4个模块:(1)低质量序列过滤(接头序列,测序质量低的序列,含有N的序列,低复杂度序列);(2)宿主序列过滤;(3)物种注释;(4)阳性检出判定7oRiNGS生信分析流程的搭建需要计算机和生物信息学专业知识。缺少专业生物信息分析员工的实验室,建议使用开源的分析流程,如
7、SUPRI+或经过大量临床标本验证的成熟商业分析软件7,12,并进行性能确认。同时,在建立生物信息流程时,建议建立病原基因组的从头组装和进化分析流程16o协和方案:(1)选择SE50(MGI)或SE75(II1.umina);(2)选用fastp处理接头序列和低质量序列17;(3)使用自建的分析脚本去除含N的序列;(4)选用人类参考基因组hg38、hg19和人线粒体参考基因组作为宿主参考基因组18,比对软件选用BWA并构建兼容的比对数据库19;(5)选用开源的SUPRI+流程进行物种注释7;(6)选用metaSPAdes和megaHIT进行从头组装20,21,选用重叠群组装箱(contigin
8、tegratorforsequenceassemb1.y,CISA)整合组装结果22;(7)使用MUMer计算平均核甘酸相似度(averagenucIeotideidentity,ANI)23;(8)使用热图方式展示AN1.结果,根据AN1.结果发掘潜在的新发病原体24(图2)o图2协和病原宏基因组生信分析流程图三、生物信息分析流程性能确认参考盘制备随着宏基因组测序技术广泛应用于临床,科学研究者和临床专家均意识到生物信息分析的可靠性是保证结果准确的决定因素之一,加强流行病学中观察性研究报告质量(STrengtheningtheReportingofOBservationaIstudiesinE
9、pidemio1.ogy,STROBE)和CAP等学术组织都提出了对宏基因组生物信息分析流程验证的建议5,25o内容主要包括:(1)验证近缘物种的相互交叉干扰率评估26;(2)分析流程的灵敏度评估;(3)数据库的完整性和代表性评估27o协和方案:(1)根据制定的物种清单(80种),收集同属内所有微生物的代表基因组;(2)根据病原体种类不同,分别从病理系统资源整合中心(PAThOSyStemSReSOi1.rCeIntegrationCenter,PATRIC,https:/www.patricbrc.org)和临床级微生物数据库(FoodandDrugAdministration-databa
10、seforReguIatory-GrademicrobiaISequences,FDA-ARGOS,https:/www.fda.govmedicaIdevicesscience-and-research-medicaI-devicesdatabasereference-grade-microbiaI-sequences-fda-argos)中筛选细菌参考基因组28,29,从全球共享禽流感数据倡议组织数据库(G1.obaIInitiativeonSharingAvianInfIuenzaData,GISAID,https:/www.gisaid.org)、病毒参考数据库(ReferenceVi
11、ra1.DataBase,RVDB,https:/rvdb.dbi.udeI.edu)和美国国家生物技术信息中心(Nationa1.CenterforBiotechno1.ogyInformation,NCBI,https:/www.ncbi.n1.m.nih.gov)30中筛选病毒参考基因组,从真菌和卵菌信息网(FungaIandOomyceteInformaticsResources,FungiDB,https:/fungidb.org/fungidb/app)和NCB1.中筛选真菌参考基因组32,33,从蠕虫寄生虫信息网(WormBaseParaSite,https:/parasite,
12、wormbase,orgindex,htm1.)和NCB1.中筛选寄生虫参考基因组32,34;(3)微生物参考基因组筛选原则如下:优先选择宿主为人类的基因组序列;优先选择基因组更完整的数据,部分微生物无完整基因组时,优先选择部分组装的基因组序列;优先选择中国地区上传的基因组序列;(4)使用全基因组模拟器(who1.egenomesimu1.ation,wgsim)制备评估用模拟数据35;(5)设置数据库中的所有物种不同序列数梯度的模拟数据;(6)根据物种进化速率,模拟生成新发病原体的测序数据36。四、生物信息分析流程性能确认指标本方案中,在参考计算机软件评估要求的基础上拟定mNGS生物信息分析
13、流程性能确认的评估指标,主要包括准确率、召回率、精确率、F1.-Score和最低测序数据量37o(一)准确率、召回率、精确率和FI-SCore1 .生物信息分析阳性检出阈值的标准:(1)检出种特异性序列数至少1条;(2)与同属内检出序列数第一位物种间比值大于10%7o2 .肺泡微生态模拟数据的生成:对1000份既往已进行mNGS检测的BA1.F标本进行重分析,统计标本中微生态的组成和丰度情况,使用宏基因组仿真数据生成软件(Critica1.AssessmentofMetagenomeInterpretation,CAMISIM)模拟微生态数据35o3 .模拟阳性标本测序数据的生成:随机生成10
14、、100、1000、10Ooo和100OOo条病原体序列,并分别与微生态模拟数据整合。使用自建分析流程和数据库对每份模拟数据重复分析100次,分别计算:准确率=(TP+TN)(TP+FN+FP+TN);召回率二TP/(TP+FN);精确率=TP/(TP+FP);F1-Score=2准确率X召回率/(准确率+召回率);TP,真阳性;FP,假阳性;TN,真阴性;FN,假阴性。(二)最低测序数据量对上述1000份BA1.F的背景微生物进行基因组大小的加权平均计算,获得背景微生物的平均基因组长度。根据人源序列和背景微生物的比例分布范围,估算背景微生物平均拷贝数。已有数据表明,BA1.F宿主细胞中位值在
15、105细胞数/m1.,极限高值为107细胞数/m1.38。本方案中,拟定病原体最低拷贝数103拷贝/m1.,并考虑背景菌平均基因组和拷贝数。根据DirkHoper团队提供的数学模型(伯努利随机过程)推导出所需最低测序数据量39o五、mNGS实验流程建立mNGS湿实验环节的方法学建立主要涉及核酸提取、建库等流程,在检测体系建立时,需进行充分评估。第一,不同的提取试剂对细菌、真菌、病毒的核酸提取效率存在差异40,41,42o同时,提取流程中是否有破壁过程以及破壁的条件也会影响核酸提取效率12o第二,根据已发表的专家共识,当临床标本中宿主细胞浓度高时,为提高低载量病原体的检出率,建议添加去宿主过程42o第三,mNGS应用于科学研究时多采用单份标本最低20M的测序数据量,但临床应用时需要多少测序数据量存在较大的争议。建议在建立方法学时,进行最低测序数据量的评估。第四,背景微生物的核酸片段是干扰mNGS结果的重要因素。建议在建立方法学时,根据实际情况建立背景核酸数据模型1,5,16,协和方案如下。(一)核酸提取效率评估使用固定CFU的代表性菌株,使用Qiagen的提取试剂盒提取核酸,并使用微滴式数字聚合酶链反应(drop1.etdigita1.poIymerasechainreaction,ddPCR)进行定量,每一菌株重复3次以计算均值;以阴性BA