《基因组学技术在致病基因发现.ppt》由会员分享,可在线阅读,更多相关《基因组学技术在致病基因发现.ppt(98页珍藏版)》请在优知文库上搜索。
1、 基因组学技术在致病基因发现基因组学技术在致病基因发现及临床诊断中的应用及临床诊断中的应用引言 对疾病的研究一直是人类科研活动的重点和热点之一 人类所有疾病都具有遗传影响和背景,但只有在一少部分疾病中,遗传因素起主要作用 遗传病通常具有先天性、终生性和家族性的特点 2 遗传病分类遗传病分类 单基因遗传病研究策略回顾单基因遗传病研究策略回顾 复杂疾病研究策略回顾复杂疾病研究策略回顾 应用二代测序技术寻找易感基因应用二代测序技术寻找易感基因3遗传病分类遗传病分类 单基因遗传病单基因遗传病 多基因遗传病多基因遗传病 染色体疾病染色体疾病 线粒体疾病线粒体疾病 体细胞遗传病体细胞遗传病 4 权威的在线
2、人类孟德尔遗传数据库(Online Mendelian Inheritance in Man,OMIM),目前已收录的以孟德尔遗传方式为主的遗传病约6700种,其中常染色体连锁的约6200中,性染色体连锁的500种。在这6700多种遗传疾病中,其中已确定其分子遗传基础的单基因病接近3000种,表型已知而致病分子基础未知的约有1830多种。由于单基因病的遗传异质性,还有很多的亚型未被发现。单基因遗传病单基因遗传病AutosomalX-LinkedY-LinkedMitochondrialTotal*Gene with known sequence12605620483513308+Gene wi
3、th known sequence and phenotype3141802334#Phenotype description,molecular basis known27252364282993%Mendelian phenotype or locus,molecular basis unknown1632134501771Other,mainly phenotypes with suspected mendelian basis1831130201963Total191071138596520369OMIM Statistics for May 3,20116多基因遗传病多基因遗传病遗传
4、方式复杂,无显性和隐性之分,故也称多因子遗传或复杂疾病。常见的有唇腭裂、先天性下颌前突、高血压、糖尿病、精神分裂症、类风湿性关节炎及先天性心脏病等。复杂疾病的发病率常有地区或族群差异。比如在世界范围内,唇腭裂的发生率约为1/700,拉美、亚洲发生率高,非洲较低。下颌前突亚洲群体发病率较高,大约有8%40%,非洲为3%8%,欧美较低,约为0.4%4%。7染色体疾病染色体疾病 数目性染色体畸变数目性染色体畸变 例子如Down综合征,即21三体综合征表型特征有智力低下、伸舌、鼻梁低平、眼裂上斜、小耳、小颌、枕平、内眦敖皮、颈短及肌张力减低等,常伴有先天性心脏发育缺陷 结构性染色体畸变结构性染色体畸变
5、 是在细胞分裂过程中曾有染色体断裂所致。常见的结构异常有缺失、环状染色体、易位、重复、倒位和等臂染色体。如毛细血管扩张性共济失调症 染色体数目异常比结构异常更常见8疾病致病基因查找研究p疾病致病基因查找 对疾病的诊断与治疗有巨大意义除DNA水平,还有RNA、蛋白、细胞水平等自动化DNA测序仪与微阵列芯片-强有力工具人类基因组计划完成 总体框架p传统的基于连锁不平衡(LD)的方法基于家系的Linkage分析基于大样本的Association分析很多成功范例疾病致病基因定位研究罕见疾病感染率低(318,000 tag SNPs20数据分析方法数据分析方法 Genome Studio Call ra
6、te 99%CNV partition 至少连续5个探针21数据分析方法数据分析方法 连锁分析 Merlin Genehunter Mendel 单体型分析 Merlin Haplopainter CNV partition22连锁分析流程连锁分析流程23参数连锁分析在复杂疾病中的应用参数连锁分析在复杂疾病中的应用在复杂疾病连锁分析中,很多研究倾向于非参数分析,避开对遗传模式的猜测仍有一些学者认为参数连锁在复杂疾病研究中仍然有不可替代的优势在很多研究采用一系列不同的遗传模式,以得到最优遗传模式参数最好结合参数和非参数分析的结果,二者吻合度到,共同支持的连锁区域更可信。24参数连锁分析在复杂疾病
7、中的应用参数连锁分析在复杂疾病中的应用双致病位点连锁分析在定位到两个或多个候选区域的复杂疾病家系研究中,具有重要意义双致病位点模式可以提高复杂疾病连锁信号的检测效能。这种方法已在多项复杂疾病如家族性高胆固醇血症、静脉血栓栓塞和双相情感障碍研究中成功运用。双区域连锁分析数值高于与单个区域连锁值提示遗传因素相互影响是客观存在的。而这种优势越明显,则越支持两个区域的相互作用。25CNVCNV与疾病与疾病CNV不仅在基因组中广泛存在,而且在基因富集区尤为突出。大量研究已证实CNV是某些复杂疾病的易感因素,与人类的一些复杂性状,如个体之间的感官差异(包括嗅觉、听觉、味觉和视觉)也有关系。目前已知多种复杂
8、疾病与特定基因的CNV有着明确关系。目前,关于基因组内CNV与疾病的相关性仍处在广泛的研究中,可以肯定的是,其中高频拷贝数变异区域往往在减数分裂时产生重排,导致发育异常类疾病。26总体结论总体结论基于类似孟德尔遗传的大家系(患者大于10例,至少3代),采用SNP芯片连锁分析是定位复杂疾病易感基因的有效方法之一。双致病位点连锁分析在定位到两个或多个候选区域的复杂疾病家系研究中,具有重要意义。27应用二代测序技术寻找易感基因 外显子组测序 单个病例、病例组、核心家系 全基因组测序 几个病例、癌组织28应用二代测序技术寻找易感基因随着二代高通量测序技术的成熟,基于家系样本和少量病例样本的全基因组重测
9、序和外显子组重测序在疾病易感基因研究方面开始显现巨大优势。目前,已有数十种疾病通过外显子组重测序成功定位到了新的易感基因及突变,比如恶性黑素瘤、和痉挛性截瘫。全基因组重测序主要是在癌症这样异常复杂的疾病研究中应该更广泛,比在肝癌和乳腺癌。29外显子捕获测序(WES)技术外显子区域基因组主要功能区至少85%孟德尔遗传疾病突变位点位于外显子域只占全基因组1%区域,数据量小外显子捕获测序多重探针杂交,特异扩增2009 年首次应用于致病基因的筛选Freeman Sheldon syndrome,4样本样本-MYH3,验证了已有研究结果。,验证了已有研究结果。(NG S B,Jay Shendure,N
10、ature,2009)2010年科学杂志十大科学突破之一WES筛选疾病致病基因策略筛选目标引起氨基酸变化的未知或已知罕见突变(missense,nonsense,splice SNP,coding Indel)筛选方案疾病遗传模型筛选策略样本常染色体隐性隐性遗传common LOH gene无关个体,家系常染色体显性显性遗传疾病 common mutated gene无关个体,家系高异质性常染色体显性遗传疾病common LOH gene家系,无关个体自发突变(germline)平均0.86 NS-SNP/新生儿(Lynch M,PNAS,2010)common mutated gene无关个
11、体,父/母/子自发突变(somatic)common mutated gene无关个体(正常组织,患病组织)WES实验方法外显子捕获试剂盒及实验Agilent 公司SureSelect Human All Exon Kit试剂盒(有效覆盖区域 30M)Pair-end文库Illumina Paired-End Genomic DNA Sample Prep Kit(p/n PE-102-1001)试剂盒,平均插入片段长度200测序平台及实验Illumina Hiseq 2000单样本单道(lane),目标测序长度100,循环次数为108次WES数据分析目标:Rare或novel突变,NS/SS
12、/cIndel流程图WES数据分析方法和软件选择依据:1000 Genomes使用软件使用软件原始数据质量评估与过滤-SolexaQA软件包原始数据定位(Reads Alignment)软件-BWA软件数据校准和重定位 Genome Analysis Toolkit(GATK)突变和插入缺失查找 SamtoolsdbSNP 和1000 Genomes 位点过滤-自编Perl 程序 基因注释 自编程序 突变功能评估-Polyphen-2突变基因筛选复合杂合突变基因 -筛选流程NGS突变查找中的FN和FP问题 NGS突变查找中的存在假阴性和假阳性 未知突变中的FP问题尤难发现解决 方法应用及检验:
13、新算法,后续大样品SNP验证NGS突变查找中的FN和FP问题FN主要与测序覆盖度有关FP主要来自系统偏差和数据处理偏差系统偏差:454单碱基重复引起插入缺失;Solexa/SOLiD累计误差数据分析偏差:对齐错误,Paralog突变查找软件通常计算整体的FNR和FPR未知突变中的FP问题发现现象FP在未知突变数据集(NDB)中富集,而已知位点(DB)突变数据中少。估测随机抽取50个候选未知突变,使用Samtools工具观察其序列对齐情况。类型低质量突变比例1/4末端或靠近末端极端单向覆盖Indel错误对齐单碱基重复区疑似FP总数个数35322971342比例70%64%58%14%26%84%
14、未知突变中的FP问题碱基置换率考察同类型碱基置换(transition)应高于不同类型碱基置换(transversion)。结果:DB突变符合正常情况,NDB突变明显偏离。未知突变中的FP问题解释1)已发现报导的突变位点数量巨大(24M),个体细胞中可发现的新的突变越来越少。真正突变中大部分是频率较高的已知突变。2)相对于全基因组,已报告位点只占少数(8%),随机假阳性事件大部分发生在非已报导位点。Venter研究Venter团队2008年基于Sanger测序数据的研究(HuRef)表明,相对于db129,至少25%的新突变是假阳性。何况是NGS?FP对未知致病基因突变查找的影响FP对基于未知
15、致病基因突变查找的影响加大人工负担降低样本利用效率引发假阴性事件样本过多,目标区域覆盖率不足未知突变中的FP问题分析FP突变有哪些特征,哪些最严重?Solexa:低质量碱基,读序末端,前面有单碱基重复,插入缺失定位紊乱,单向极端覆盖,等等。很难确定硬阈值:界限不清,与设备、试剂有关。未知突变中的FP问题分析突变碱基重复(VR)JPT数据应用二代测序技术研究发病机理、开发临检标志物 转录组测序miRNA组测序 甲基化组测序免疫组测序44白血病相关的三株淋巴细胞系转录白血病相关的三株淋巴细胞系转录组差异表达及组差异表达及microRNA表达调控分析表达调控分析研究背景研究背景 急性淋巴细胞白血病急
16、性淋巴细胞白血病 急性淋巴细胞白血病急性淋巴细胞白血病以未分化或分化异常的原始幼淋巴细胞在造血组织中恶性增殖为特征,由内源性或外源性致癌物诱发DNA损伤,导致原癌基因突变或过表达以及抑癌基因失活,从而引起的一种恶性血液肿瘤。白血病细胞恶性增生活跃 细胞形态异常 细胞内多出现空泡 大量退化细胞出现 粒系、红系、巨核系细胞明显受抑5研究背景研究背景(引自Rosenbauer Frank,et al.2007)辐射暴露 吸烟 有毒化学物(苯并芘、苯)化疗 唐氏综合症及其他特定类型遗传疾病 骨髓增生异常综合征及其他特定类型血液病 一型T细胞白血病病毒(HTLV-1)感染 家族病史 白血病病发诱因白血病病发诱因 白血病发生白血病发生3研究背景研究背景 淋巴系白血病转录组淋巴系白血病转录组StudyPlatformSamples(n)&sourceMain objectiveYeoh et al.(2002)Affymetrix HG_U95Av2360 ALLALL sub-classificationRoss et al.(2002)Affymetrix U133 A&B132 ALLALL