《表达序列分析.ppt》由会员分享,可在线阅读,更多相关《表达序列分析.ppt(41页珍藏版)》请在优知文库上搜索。
1、第七章 表达序列分析生物信息学生物信息学 表达序列标签表达序列标签(Expressed Sequence Tag,EST)是由大规模随机挑取的是由大规模随机挑取的cDNA cDNA 克隆克隆测序得到的组织或细胞基因组的表测序得到的组织或细胞基因组的表达序列标签达序列标签表达序列标签(EST)EST的概念p EST EST是指通过对是指通过对cDNA cDNA 文库文库随机随机挑取的克隆进行挑取的克隆进行大规模测序所获得的大规模测序所获得的cDNA cDNA 的的55或或33端序列,长端序列,长度一般为度一般为60 60 500 bp.500 bp.p EST EST 是基因的是基因的“窗口窗口
2、”,可代表生物体某种组织,可代表生物体某种组织某一时间的一个表达基因,故被称之为某一时间的一个表达基因,故被称之为“表达序列表达序列标记标记”EST 技术的形成和发展 p 上世纪上世纪8080年代,对年代,对cDNAcDNA序列进行大规模测序的想序列进行大规模测序的想法就曾提出,但反对者认为法就曾提出,但反对者认为cDNAcDNA序列缺少重要的基序列缺少重要的基因调控区域的信息。因调控区域的信息。p ESTEST技术应用的首次报道是技术应用的首次报道是Adams(1991)Adams(1991)等从三种等从三种人脑组织人脑组织cDNAcDNA文库随机挑取文库随机挑取609609个克隆进行测序个
3、克隆进行测序,得得到一组人脑组织的到一组人脑组织的ESTEST,分析结果表明其中,分析结果表明其中3636个代表个代表已知基因,已知基因,337337个代表未知基因。个代表未知基因。p 运用自动化测序技术运用自动化测序技术,大规模生产大规模生产EST EST 序列。序列。http:/www.ncbi.nlm.nih.gov/projects/dbEST/体内:翻译体外研究:反转录体外研究:反转录连接,转化连接,转化EST技术流程 非标准化的非标准化的cDNAcDNA文库的构建。文库的构建。经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNAcDNA文库。文库。A.cDNA文库构建cDNA文
4、库的构建B.序列测定及数据分析测序方向的原则ESTEST编码蛋白质的信息应满足同源序列编码蛋白质的信息应满足同源序列比较分析比较分析决定于用决定于用ESTEST来进行研究的目的来进行研究的目的测序方向的选择 55端端 55上游非翻译区较短且含有较多的调控信息。一般在寻找新上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用基因或研究基因差异表达时用55端端ESTEST较好,而且从较好,而且从55端测序端测序有利于将有利于将ESTEST拼接成较长的基因序列。拼接成较长的基因序列。33端端 33端端mRNAmRNA有一有一2020200bp200bp的的polyApolyA
5、结构,同时靠近结构,同时靠近ployAployA又有特又有特异性的非编码区,所以从异性的非编码区,所以从33端测得端测得ESTEST含有编码的信息较少,含有编码的信息较少,但研究非编码区有品种的特异性,可以作为但研究非编码区有品种的特异性,可以作为STSSTS标记标记 两端测序两端测序 获得更全面的信息。获得更全面的信息。(1)(1)去除低质量的序列去除低质量的序列(2)(2)应用应用BLASTBLAST、RepeatMaskerRepeatMasker或或CrossmatchCrossmatch遮蔽数据组中不遮蔽数据组中不属于表达的基因的赝象序列属于表达的基因的赝象序列(artifactua
6、l sequences)(artifactual sequences)。载体序列载体序列 重复序列重复序列污染序列污染序列 (如核糖体如核糖体RNARNA、细菌或其它物种的基因组、细菌或其它物种的基因组DNADNA等等)(3)(3)去除其中的镶嵌克隆:去除其中的镶嵌克隆:Back-to-back poly(A)+tails;Linker-Back-to-back poly(A)+tails;Linker-to-linker in middle of the sequence.to-linker in middle of the sequence.(4)(4)最后去除长度小于最后去除长度小于10
7、0bp100bp的序列。的序列。序列前处理 聚类的目的就是将来自同一个基因或同一个转录本的具有聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分重叠部分(overlapping)(overlapping)的的ESTsESTs整合至单一的簇整合至单一的簇(cluster)(cluster)中。中。聚类作用:聚类作用:v 产生较长的一致性序列产生较长的一致性序列(consensus sequence)(consensus sequence),用于注释。,用于注释。v 降低数据的冗余,纠正错误数据。降低数据的冗余,纠正错误数据。v 可以用于检测选择性剪切。可以用于检测选择性剪切。ESTsES
8、Ts聚类的数据库主要有三个:聚类的数据库主要有三个:v UniGene UniGene()v TIGR Gene Indices TIGR Gene Indices()v STACK STACK ESTs的聚类和拼接 loose clusteringloose clustering 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTsESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因的转录本每一类中可能包含旁系同源基因的转录本 序列的保真度低序列的保真度低 strin
9、gent clusteringstringent clustering 产生的一致性序列比较短产生的一致性序列比较短 表达基因表达基因ESTsESTs数据的覆盖率低数据的覆盖率低 因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少 序列保真度高序列保真度高不严格的和严格的聚类利用cDNA克隆的信息和5、3端的序列信息,不同的Cluster可以连接在一起。Cluster的拼接(1)(1)注释:注释:序列联配 Blastn:search nucleotide databases using a nucleotide query.Blastx:search protein da
10、tabases using a translated nucleotide query.蛋白质功能域搜索(二结构比对)Pfam:The Pfam database is a large collection of protein families,each represented by multiple sequence alignments and hidden Markov models.Interpro:InterPro is an integrated database of predictive protein signatures used for the classificati
11、on and automatic annotation of proteins and genomes.基因注释及功能分类(2)(2)基因功能分类:基因功能分类:手工分类手工分类 大部分以大部分以Adams 1995Adams 1995年的文章中的采用分类体系为标准。年的文章中的采用分类体系为标准。【Adams.MD,et al.Initial assessment of human gene diversity Adams.MD,et al.Initial assessment of human gene diversity and expression patterns based upo
12、n 83 million nucleotides of and expression patterns based upon 83 million nucleotides of cDNA sequence.Nature.1995 377(6547 Suppl):3-174 cDNA sequence.Nature.1995 377(6547 Suppl):3-174】计算机批量处理计算机批量处理 利用标准基因词汇体系利用标准基因词汇体系Gene OntologyGene Ontology,进行近,进行近似的分类。似的分类。(基因注释及功能分类基因本体(Gene Ontology,GO)http
13、:/www.geneontology.org/GO.downloads.annotations.shtml 比较基因组学分析比较基因组学分析 基因表达谱分析基因表达谱分析 新基因研究新基因研究 基因可变剪切分析基因可变剪切分析 实验验证实验验证 MicroArrayMicroArray GeneChip GeneChip RT-PCR RT-PCR Northern blotting Northern blotting后续分析 表达序列标签(EST)数据的应用p 利用对某一特异组织或某一生长发育阶段的利用对某一特异组织或某一生长发育阶段的cDNA cDNA 文文库库,进行随机部分测序所得的进行
14、随机部分测序所得的EST s,EST s,作为查询项在作为查询项在dbEST dbEST 中进行中进行同源查找同源查找,同时将由同时将由EST s EST s 序列按密码子推出的氨序列按密码子推出的氨基酸序列作为查询项在蛋白质信息资源数据库中进行基酸序列作为查询项在蛋白质信息资源数据库中进行同同源查找源查找。p 如果该如果该EST s EST s 序列在以上数据库中序列在以上数据库中存在同源序列存在同源序列,可对可对该该EST s EST s 所代表基因的功能进行分析及鉴定。如果所代表基因的功能进行分析及鉴定。如果不存在不存在同源序列同源序列,则该则该EST s EST s 所代表的基因有可能
15、是所代表的基因有可能是新基因新基因。1.ESTs与新基因识别p 转录图谱为染色体转录图谱为染色体DNA DNA 某一区段内,所有可转录序列某一区段内,所有可转录序列的分布图,的分布图,ESTsESTs作为转录基因的产物,可直接用于构建作为转录基因的产物,可直接用于构建转录图谱转录图谱。p 由于由于ESTsESTs具有很高的多态性可用作分子标记,用于建具有很高的多态性可用作分子标记,用于建立立遗传连锁图谱遗传连锁图谱。p 建染色体物理图谱需要大量的单拷贝建染色体物理图谱需要大量的单拷贝序列标记位点序列标记位点(STS)(STS)作为界标,由于大多数基因是单拷贝的,因此作为界标,由于大多数基因是单
16、拷贝的,因此ESTsESTs可以充当可以充当STSSTS构建构建物理图谱物理图谱。2.ESTs与遗传学图谱的构建序列标签位点序列标签位点(sequence-tagged sites,STS)(sequence-tagged sites,STS):已知核苷酸序列的:已知核苷酸序列的DNADNA片段,是基因组中任何单拷贝的短片段,是基因组中任何单拷贝的短DNADNA序列,长度在序列,长度在100100500bp500bp之间之间来自来自mRNAmRNA的的33非翻译区的非翻译区的ESTsESTs更适合做为更适合做为STSsSTSs,用于基因图,用于基因图谱的绘制。谱的绘制。优点优点:由于没有内含子的存在,因此在由于没有内含子的存在,因此在cDNAcDNA及基因组模板中其及基因组模板中其PCRPCR产物的大小相同。产物的大小相同。与编码区具有很强的保守性不同,与编码区具有很强的保守性不同,3UTRs3UTRs序列的保守性序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。似基因家族成员分开。2.ESTs与遗传