《2电子克隆技术及其在植物基因工程中的应用.docx》由会员分享,可在线阅读,更多相关《2电子克隆技术及其在植物基因工程中的应用.docx(14页珍藏版)》请在优知文库上搜索。
1、电子克隆技术及其在植物基因工程中的应用王冬冬朱延明李勇李杰柏锡(东北农业高校生命科学学院,黑龙江哈尔滨150030)摘要:电子克隆是随着基因组安排和EST安排的实施而发展起来的,是利用生物信息学手段进行基因克隆的新方法。它具有投入低、速度快、技术要求低和针对性强等优点。因此,电子克隆技术必将成为植物基因工程中获得新基因的重要手段。阐述了电子克隆应用所依据的数据库与生物信息资源,介绍了利用电子克隆获得功能基因的方法,及其在植物基因工程中的应用现状与前景。关键词:电子克隆;植物基因工程;表达序列标签EST;生物信息学电子克隆(inSilicoClOning)是近年来伴随着基因组安排和EST安排发展
2、起来的基因克隆新方法。电子克隆的技术原理是利用日益发展的生物信息学技术,借助电子计算机的巨大运算实力,通过EST或基因组的序列组装和拼接,利用RT-PCR的方法快速地获得新基因。国际上BOgUSki等学者在1994年起先利用电子克隆方法发觉新基因,中国科学院生物物理探讨所陈润生探讨组在1996也起先了对电子克隆的探讨1。电子克隆技术应用的前提条件要具备拟研物种的丰富核酸序列信息,其他物种的相关基因的信息,以及强大的计算机硬件和相关生物信息学分析软件。基因组和EST资料的丰富程度确定了电子克隆得以在人类、小鼠等生物中广泛应用。由于受到序列资料的限制,植物基因的电子克隆还鲜有报道。但随着植物基因组
3、安排和功能基因组学的发展,电子克隆在植物基因工程探讨中必将发挥出巨大的功用。1电子克隆技术及其依托的生物信息学资源1.1 电子克隆的基本原理利用电子克隆方法获得新基因是生物信息学的探讨内容之一。生物信息学资源是由数据库、计算机网络和应用软件三大部分组成。而电子克隆的应用即是基于这三部分生物信息学资源而绽开的。它是利用计算机技术,依托现有的网络资源(EST数据库、核甘酸数据库、蛋白质数据库、基因组数据库等),采纳生物信息学方法(包括同源性检索、聚类、序列拼装等),通过EST或基因组的序列组装和拼接,利用RT-PCR快速地获得部分乃至全长CDNA序列的方法。1.2 电子克隆的实施方案首先,在数据库
4、或PUbMed中获得感爱好的CDNA或氨基酸序列,基于EST和基因组信息两种数据资源,利用上述得到的已知基因序列实施电子克隆有以下两种方案。利用EST数据库信息资料:利用序列同源性比较软件(如BIaSt软件)将种子序列对库检索;从数据库中选择出全部相关序列;对全部序列进行片段整合分析(即COntig分析),形成延长后的序列,称新生序列。随后,将此新生序列作为种子序列重复进行上述三步过程,直至新生序列不能被进一步延长为止,通过完整性分析即获得了全长的新基因序列2-3。见图1。利用基因组信息资料:把作为信息探针的氨基酸或核甘酸序列在NCBI网站中对特定物种各基因组数据库进行B1.AST分析,从结果
5、中筛选出感爱好的外显子序列,并通过链接得到其所在的基因组序列,同时依据比对的结果对基因组序列可能造成的移码测序错误进行修正;把这些感爱好的外显子序列依据其所在基因组上的位置依次进行干脆连接,或者把基因组序列提交到GenSCan和GeneFinder等网站进行预料,得到可能的新基因序列。有时各外显子分别处于较短的尚未组装的基因组序列中,也可按探针基因外显子依次进行干脆拼接;把可能的新基因序列基于核酸数据库做B1.AST分析,检验其新奇性;把筛选后的新基因序列提交到dbEST数据库做B1.AST分析并延长,同时也是进一步确认其真实存在的可信度,并进行组织表达定位,为克隆该基因供应组织来源信息。最终
6、依据最终的序列设计引物,进行RT-PCR试验得到新基因4。见图2。1.3 电子克隆依据的网络分析程序和应用软件序列的相像性检索分析程序一条序列对整个数据库进行相像性分析以发觉其同源序列是电子克隆中的一个极其重要的方面。目前运用最广泛的程序是FASTA和B1.AST。FASTA集中反映具有显著意义的序列对齐结果。在互联网上已有很多的在线FASTA查找服务,同时也可下载后离线运用,下载站点:ftp:/ftp.vir.ginia.edupubfastados0B1.AST(Basic1.ocalAlignmentSearchTool,基本局部比对搜寻工具)则采纳了一种短片段匹配算法和一种有效的统计模
7、型来找出目的序列和数据库之间的最佳局部对齐效果。目前在互联网上有很多在线的B1.AST查找程序,特地用于查找各大数据库中与用户提交的序列同源的序列,如:NCBI(:/ncbi.nlm.nih.gov/B1.AST/blast,html)和EMB1.(:/ebi.ac.ukblast2)和EBl的FASTA(:/ebi.ac.k/fasta33)fasta33)o同时运行这两个程序进行数据分析,能避开漏检一些有用的信息5-6。序列拼接、聚类的软件序列拼接、聚类常用的软件或软件包见表17。核酸序列分析预料程序及软件.1可读框架(openreadingframe,ORF)分析mRNA须要翻译为蛋白质
8、方能发挥其生物学作用。因此,核酸序列的可读框架分析是核酸分析的一个重要部分。基于遗传密码表,可通过计算机便利的分析核酸序列的读码框。最常用的互联网ORF分析资源是NCBl供应的0RFFinder,网址是:ncbi.nlm.nih.gov/gorf/gorf.htmIo.2基因序列中的编码区/内含子结构分析预料通过与数据库中已知的蛋白质序列、cDNA序列以及EST序列进行对比,可识别编码区和内含子、外显子剪接位点。一些内含子和外显子数据库可供参考,例如IDB(:/Netmeg.bio.indiana.eduintron/index,html);ExInt(:/intron,bic.nus.edu
9、.sg)。也可通过GENESCAN(:/211.161.196.214:8888)程序预料基因组序列中可能的外显子;利用GeneFinder软件(:bioscience,orgur11istsgenefind.html)进行基因组序列的内含子和外显子分析。.3基因启动子及其他DNA调控位点分析预料基因启动子分析预料常用的数据库有真核生物启动子数据库EPD(EukaryoticPromoterDatabase):/epd.isb-sib.cho植物启动子数据库PlantPrOn1DB:/c=plantprom&group=Data&subgroup=plantprom;转录起始位点预料工具NNP
10、P(NeuralNetworkPromoterPrediction):/fruitfly,orgseq_tools/promoter.html,PROSCAN:/bimas.dcrt.nih.gov/molbio/proscan,PlantPromDB:/softberry/berry.phtmltopic=plantprom&group=data&subgroup=pIantprom;植物顺式作用元件分析工具P1.ACE:/dna.affrc.go.jp/htdocs/P1.ACE5o蛋白质序列分析预料程序及软件.1蛋白质基本性质分析位于EXPASy的PrOtSCaIe程序(:expasy.
11、org/cgi.bin/protscale.PD可被用来计算蛋白质的疏水性图谱。进行蛋白质的亲/疏水性分析时,也可运用一些WinCIoWS下的软件资源,如BioEdit、DNAMAN等。跨膜区的分析利用网上的相关软件(:ch.embnet.org/software/TMPRED.form,html),该程序通过计算氨基酸序列中可能形成的跨膜螺旋位置,并依据疏水性大小给予每个跨膜螺旋肯定的分值,自动绘制出蛋白质的疏水曲线。当分值在正负之间摇摆时,可预料该蛋白质有跨膜结构域。含有信号肽的蛋白质一般能够被分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。联网到:genome.cbs
12、.dtu.dkservicesSignaIP/可进行蛋白质序列信号肽分析。和信号肽与跨膜区结构一样,蛋白质的亚细胞定位往往也和该蛋白质的功能亲密相关。蛋白质的亚细胞定位分析的网络程序可联网到:Softberry等,Reinhardt等基于神经网络算法构建的蛋白质亚细胞定位数据库(:/predict,sanger.ac.uk/nnpsl/nnpsl_mult.cgi)也可用于对蛋白质序列进行亚细胞定位分析。.2蛋白质功能分析预料基于序列同源性分析的蛋白质功能预料利用B1.ASTP和FASTA等软件。通常,一条新生的蛋白质序列很难仅仅通过序列对齐获得足够的功能信息。基于蛋白质基序(motif)、结
13、构位点、结构功能域的蛋白质功能预料能够更多的获得蛋白质的功能信息。目前最好的DIOtif数据库是由AnlOSBairoCh所创建的PRoSlTE(:/expasy.org.prosite)omotif预料软件:MotifScan(:/hits,isb-sib.ch/cgi-bin/PFSCAN)简洁模块构架搜寻工具(SimpleModularArchitectureResearchTool,SMART)是较为志向的蛋白质结构功能域分析工具。网址为:SnIartembl-heidelberg.deo.3蛋白质结构分析预料蛋白质结构资源很多,基本立体结构数据库为PDB(:/rcsb.orgpdb)
14、oNR1.-3D是全部已知结构蛋白质的数据库,可用于对查询蛋白质序列进行相像性分析以确定其结构。其网址为:gdb.orgDanproteins/nrl3d.html0蛋白质序列数据库ISSD(:/Protein.bio.msu.su.issd);二级结构数据库HSSP(:/sander,embl-heidelberg.dehssp);蛋白质结构分类数据库SCOP(:/scop.mrc.lmb.cam.ac.uk.scop);蛋白质分子模型数据库MMDB(:/ncbi.nlm.nih.govStructure);三维结构数据库NDB、BisMagRes-BanksCCSD等8-10。2电子克隆技
15、术在植物基因工程中的应用1994年BOgUSki等起先用电子克隆找寻人类新基因。目前发表的有关人类基因克隆的绝大部分都利用了人类的基因组或EST数据。北京高校人类疾病基因探讨中心、国家人类基因组北方探讨中心、北京高校数学学院、北京高校计算生物学中心联合,利用电子克隆的方法进行人类疾病相关的基因克隆,在国际上已经处于领先水平。植物中目前只有拟南芥和水稻公布了基因组序列,使得这两种植物基因的克隆越来越多的利用发布的序列信息资源。尤其是利用生物信息学技术进行水稻功能基因的电子克隆的报道近几年来渐渐增多,这标记着电子克隆在植物领域的应用起先逐步的发展起来。黄骥等11以来源于水稻盐胁迫CDNA文库的1个500bp的ESTSl21为信息探针搜寻位于Gen-Bank的水稻EST库,发觉有2个EST与Sl21部分序列一样,经过拼接组装获得了1个886bp的全长CDNA序列,同源性比较的结果表明其可能编码一个新的水稻锌指蛋白基因。依据拼接好的序列设计PCR引物,通过RT-PCR的方法胜利分别了该基因的完整CDNA克隆,命名为OSZFP,该锌指蛋白可能涉及到水稻幼苗的盐胁迫应答反应。他们在2004年报道以已公布的黑麦胞质核糖体蛋白基因SCRPS7的CDNA序列为信息探针,在中国华大水稻基因组数据库中搜寻与之高度同源的基因