《第一讲道客巴巴基因组测序与序列组装名师编辑PPT课件.ppt》由会员分享,可在线阅读,更多相关《第一讲道客巴巴基因组测序与序列组装名师编辑PPT课件.ppt(81页珍藏版)》请在优知文库上搜索。
1、第一讲第一讲 基因组测序与序列组装基因组测序与序列组装主要内容:n什么是基因组n什么是基因nDNA测序的方法nDNA序列的组装n人类基因组计划n水稻基因组计划n后基因组学1.1.什么是基因组什么是基因组 基因组就是一个物种中所有基因的整体组成。基因组有两层意义:遗传物质和遗传信息。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。Zea mays 8,000Homo sapiens 3,000Oryza sativa 400Drosophila melanogaster 165Arabidopsis thaliana 100Saccharomyces ce
2、revisiae 12E.coli 4.6Genome Size(Mb)什么是什么是C 值?值?C值悖理:值悖理:生物的复杂性与基因组的大小并不完全成比生物的复杂性与基因组的大小并不完全成比例增加例增加细菌细菌真菌真菌等等动物动物阴影部分为一个门内阴影部分为一个门内C-值的范围值的范围重复顺序重复顺序 高度重复顺序:高度重复顺序:长度:几个长度:几个几千个几千个bp 拷贝数:几百个拷贝数:几百个上百万个上百万个 首尾相连,串联排列首尾相连,串联排列 集中分布于染色体的特定区段(如端粒,着丝粒等)集中分布于染色体的特定区段(如端粒,着丝粒等)也称卫星也称卫星DNA 中度重复顺序:中度重复顺序:一
3、般分散于整个基因组中;一般分散于整个基因组中;长度和拷贝数差别很大长度和拷贝数差别很大 单一顺序:单一顺序:基因主要位于单一顺序基因主要位于单一顺序 动物中单一顺序约占动物中单一顺序约占50 植物中单一顺序约占植物中单一顺序约占20 DNA 的复性的复性 遵循二级反应动力学,可表述为:遵循二级反应动力学,可表述为:dCt/dt=-KC02 反应达反应达 t 时,单链时,单链DNA浓度浓度=CtC0=单链单链 DNA起始浓度起始浓度 K 复性速度常数复性速度常数顺序复杂性Cot(1/2)=1/K(mol.Sec/L)常数常数 Ct/C0 0101C0t(1/2)C0t(1/2)C0t(1/2)值
4、与基因组复杂性成正比。值与基因组复杂性成正比。是遗传信息的物理和功能单位,包含是遗传信息的物理和功能单位,包含产生产生一条多肽链或功能一条多肽链或功能RNA所必需的全部核苷酸所必需的全部核苷酸序列。序列。基因分类:基因分类:编码编码RNA的基因,如的基因,如rRNA基因,基因,snRNA基因等;基因等;编码蛋白质的基因编码蛋白质的基因2.什么是基因?什么是基因?基因的不连续性基因的不连续性Intron 和和Exon:大多数真核生物蛋大多数真核生物蛋白质基因的编码顺白质基因的编码顺序序(Exon)都被或长都被或长或短的非编码顺序或短的非编码顺序(Intron)隔开隔开基因家族基因家族 一群具有一
5、群具有一致的一致的或或相似相似顺序顺序的基因的基因,有的还担负有的还担负类似的生物学功能类似的生物学功能,可以相互补偿可以相互补偿,比如比如:E2f:E2f transcription factor transcription factor Mouse symbolHuman OrthologE2f1E2F1 E2f2E2F2E2f3E2F3E2f4E2F4E2f5E2F5E2f6E2F6假基因假基因(Pseudogene)来源于功能基因来源于功能基因 但已失去活性但已失去活性 的的DNA序列序列产生假基因的原因有产生假基因的原因有:1.由重复产生的假基因由重复产生的假基因;2.加工的假基因加
6、工的假基因,由由RNA反转录为反转录为cDNA 后再整合后再整合到基因组中到基因组中;3.残缺的基因残缺的基因(Truncated gene)重迭基因有以下几种情况:重迭基因有以下几种情况:*一个基因完全在另一个基因内部一个基因完全在另一个基因内部*部分重叠部分重叠*两个基因共用少数碱基对两个基因共用少数碱基对*一个基因完全在另一个一个基因完全在另一个基因内部基因内部如:如:B和和A,E和和D 其读码结构互不相同其读码结构互不相同 -ATG-/-AATGCC-/-ATAACG-/-TAA-A*BATGCCN-NNATAA*部分重叠部分重叠 如:如:K和和C *两个基因共用少数两个基因共用少数碱
7、基对碱基对 如:如:D和和J-TAATG-D 终止密码子终止密码子J 起始密码子起始密码子3.DNA测序的方法n链终止法测序n化学降解法测序n自动化测序n非常规DNA测序3.1 链终止法测序(the chain termination method)基本原理:通过合成与单链DNA互补的多核苷酸链,由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,从而来读取待测DNA分子的顺序。技术路线与要求技术路线与要求制备单链模板A 克隆于质粒中DNA用碱或热变性B M13克隆单链DNAC 噬粒克隆DNAD PCR产生单链DNAA 高酶活性B 无53外切酶活性C 无35外切酶活性dd
8、ATP/ddCTP/ddGTP/ddTTP 的3碳原子连接的是氢原子,不是羟基3.2 化学降解法测序n基本原理:在选定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解.技术路线技术路线 将双链DNA样品变为单链Maxam-Gilbert Maxam-Gilbert 法所用的化学技术法所用的化学技术碱基特异修饰方法GPh8.0,用硫酸二甲酯对 N7进行甲基化,使 C8-C9键对碱基裂解有特殊敏感性A+GpH2.0 哌啶甲酸可使嘌呤环的N原子化,从而导致脱嘌呤,并因此消弱腺嘌呤和鸟嘌呤的糖苷键C+T肼可打开嘧啶环,后者重新环化成五元环后易除去C1.5mol/L NaCl存
9、在时,可用肼除去胞嘧啶化学法测序实例化学法测序实例哌啶3.3 3.3 自动化测序自动化测序n基本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基.3.4 非常规测序n 毛细管电泳 用毛细管电泳取代聚丙烯凝胶平板电泳,节省时间,加快测序进程,其他程序同链终止法或化学测序法.n 光点测序 脱氧三磷酸核苷酸连接到DNA 3-末端时会释放1个焦磷酸(PPi),焦磷酸在磷酸化酶的作用下转化为化学能,并发出光亮.由此
10、,往反应液中每次只加入1种核苷酸,当加入的核苷酸结合时,反应液发出亮点,并记录核苷酸种类;当核苷酸未结合时,反应液中的核苷酸酶迅速分解此核苷酸,由此来测定DNA序列.nDNA芯片测序 基本原理 将各种排列顺序的寡核苷酸点播在芯片上,每个点播的寡核苷酸在排列的方阵中都有指定的位置.待检测的DNA分子与芯片温浴,凡是能杂交的寡核苷酸都会在确定位置发出信号,然后根据获取的信息将寡核苷酸的顺序进行对比组装,拼接成完全的DNA顺序.1 ATACGTTA2 GTTAGATC3 ACGTTAGA4 CGTTAGAT5 GTTAGATCDNA 样品 TATGCAATCTAG与基因芯片上 65,000 种可能的
11、八聚体进行杂交从而形成特定的结合图形计算机分析杂交图象并由探针的重叠情况推导样品的核酸序列1 ATACGTTA3 TACGTTAG4 ACGTTAGA2 CGTTAGAT5 GTTAGATC3 TACGTTAG4 ACGTTAGA2 CGTTAGAT互补序列为:ATACGTTAGATC样品序列为:TATGCAATCTAG利用基因芯片进行杂交测序的原理4 4 序列的组装序列的组装4.1 随机测序与序列组装 随机测序也称”鸟枪法”.序列组装原理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸.优点:不需预先了解任何基因组的情况.ABCABCABCABC小片段测序小片段测
12、序计算机拼装计算机拼装ABC小片段测序小片段测序计算机拼装计算机拼装鸟枪法鸟枪法(Shotgun)测序的问题测序的问题 CAATGCATTAGCAGCCAATGCGAP错装错装实例实例:流感嗜血杆菌基因组的测序及流感嗜血杆菌基因组的测序及顺序组装顺序组装超声波打断纯化的基因组DNA 各重叠群间仍有间隙 顺序间隙 物理间隙 解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库解决办法:利用其它宿主菌与载体重新构建文库4.24.2 限制测序限制测序n 限制测序:是指将一段染色体区段的DNA 顺序进行组装.一些已绘制了遗传图与物理图的微生物基因组测序中也采用这一方法.如高等植物拟南芥基因组的测序完
13、全依据克隆重叠群,先进行各个BAC克隆的随机测序,再进行序列组装;水稻基因组测序计划采取得策略与此相同.4.34.3 指导测序与序列组装指导测序与序列组装 建立在基因组图谱基础上的”鸟枪法”,即所谓”指导鸟枪法”或”指导测序”。在人类基因组进入测序组装阶段就采用此方法,其基本步骤如下:A 构建平均为2Kb的人类基因组质粒文库,进行双向测序;B 构建平均10Kb的人类基因组质粒文库,进行双向测序,读取2个端部顺序;C 参考人类基因组图,特别是大量的STS位标作为基点,进行序列组装,排成重叠克隆群.先将染色体打成比较大的片段先将染色体打成比较大的片段(几十几十-几百几百Kb),利用利用分子标记将这
14、些大片段排成重叠的克隆群分子标记将这些大片段排成重叠的克隆群(Contig),分别分别测序后拼装测序后拼装.这种策略叫这种策略叫基于克隆群基于克隆群(contig-based)的策的策略略.ABCABC大片段大片段contig小片段测序拼装小片段测序拼装两种策略的比较两种策略的比较鸟枪法策略鸟枪法策略 指导测序指导测序策略策略不需背景信息不需背景信息 构建克隆群构建克隆群 (遗传、物理图谱遗传、物理图谱)时间短时间短 需要几年的时间需要几年的时间 需要大型计算机需要大型计算机得到的是草图得到的是草图(Draft)得到精细图谱得到精细图谱4.54.5 其他测序路线其他测序路线n重要区域优先测序
15、人们对感兴趣的基因或与疾病相关的基因优先测序.如:人类主要组织相容性复合区位于第6号染色体,与人类免疫系统有关,因而优先测序.nEST(Expressed sequence tag)测序 EST是一种重要的基因组图分子标记,以EST为探针很容易从 cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列.优点:A mRNA 可直接反转录成cDNA,而且cDNA文库也比较容易构建;B 对cDNA文库大量测序,即可获得大量EST的序列;C EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因;5.人类基因组计划人类基因组计划 人类基因组计划(Human ge
16、nome project)于1990年启动,我国于1999年加入该计划,承担其中1%的任务,即人类3号染色体短臂上约30Mb的测序任务。5.1 人类基因组计划的目的n阐明人类基因组30亿个碱基对的序列,发现所有人类基因,并搞清其在染色体上的位置;n破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我;n解码生命、了解生命的起源、了解生命体生长发育的规律;n认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。5.2 人类基因组草图的完成 2000年6月26日是人类历史上值得纪念的一天。人类基因组的工作草图已经绘制完毕并于这天向全世界公布。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构,序列错误率低于万分之一。随机测序与序列组装方法和指导测序与序列组装方法相结合进行序列组装B 国际人类基因组测序策略构建BAC克隆5.4 人类基因组测序结果 基因数是基因数是3万、万、4万还是万还是10万万 人类遗传基因数量比原先估计的少很多。目前研究表明,人类基因组中约有3万至4万个蛋白编码基因,仅仅是果蝇基因数目的两倍,人有而鼠