《EXAM-Review-Outline-OF-Bioinformatics.docx》由会员分享,可在线阅读,更多相关《EXAM-Review-Outline-OF-Bioinformatics.docx(5页珍藏版)》请在优知文库上搜索。
1、生物信息学一、名词说明1 .NCBI:美国国家生物技术信息中心。2 .EBI:欧洲生物信息中心。3 .同海:在进化上起源相同的两段核昔酸序列,挣殊是功能较更妥的保守区段或基因。4,直系同源:两个不同的物种由于种分化而产生的相像序列。5 .并系同源:同一物种由于基因交区而产生的相俅序列。(旁系同淞皋因是指同一基因组巾,由于始祖基因的加倍而横向产生的几个同淞基因.)6 .异同源:由于染色体的横向转移而产生的相像序列。7 .全局对住:对序列从头到尾进行比较,试图使尽可能多的字符在同一序列中匹配,全局比对适用于相俅度较南旦长度相近的序列。8 .局部对伎:找寻序列中相像废最高的区域,也就是匹配密度最高的
2、部分,局部时位适用于在某些部位和像度较高,而其他部位差异标大的序列.9,序列比对:是在两条或多条序列中找寻依据相同次序比对的一连串的单个字符或字持模块的过程。10 .两条序列比对:通过比较两个序列之间的相像区域和保守性住点,找寻二者可施的进化关系.11 .多重序列对住:将多个蛋白质或核酸同叶进行比较,找寻这些有进化关系的序列之间共同的保守区域、位点和概型。12 .马尔科夫链:是敦学中具有马尔可夫性质的离敬时间通机过程。该过程中,在给定当前学问或信息的状况下,过去(即当期以前的历史状态)对于预料将来(即当期以后的将来状态)是无关的。13 .马尔科夫模型:在一个系蜕中,从一个状态到另一个状态的一系
3、列变更与之前变更的历史无关。14 .除马尔科夫模型HMM:是有马尔科夫链发展扩充而来的一种随机模型,可以被理解为一个双随机近程,一个是系统状态变更的随机过程,另一个是由状态喘定将出的的机过程。15 .E-value:E值或期望伍是序列比对中代表随机匹配可能性的一个数伍,代表了由随机匹配梃率而造成的粕像性的概率,即日的片段与搜寻获得的片段为随机配对的可能性,它的数值越接近于零,此两个片段为随机配对的可施性就越小。16 .P-value:从某一总体中随机拈样,形成一个抽样分布,依据随机试脸中某一抽样事务属于该分布的概率范围,可计算这一随机事务属于该分布的概率,即误差造成的慨率,一般用P值表示。P值
4、愈小,随机误爰造成的挺率愈小。17 .进化树:在探讨生物进化和系统发育过标中,常用一种树状分支图来概括各种生物之间的亲缘关系,这种表征物种或序列进化关系的树状分支圉称为系统发育树。18 .分析系统树:依据大分子序列和像性数值构建的系统发克树。19 .物种树:表示物钟进化历史的树图。20 .基因树:基于单个基因构成的系统发育树。21 .分子进化钟:分子进化钟假说认为生物分子进化过程中普遍存在这种有规律的钟,即分子进化速率近似恒定。这样便可依据已知年头的核酸样品计算出序列变更率和进化时间之间的关系,从而掂断物种间的分歧时间和特异的进化事务发生的时间。22 .有根树:系统发育树的一种,树根代表透化史
5、上最早的共同祖先。全部的序列都来自于一个共同的祖先,该序列在现在的状态下视定不到且是进化历程上出现最早的,把这条序列定义为树根,从根节点到其他节点都只有唯一的途径,每个节点只产生两个分支,杖长代表分歧年头或进化关系,这样的系统发育树成为有根数.23 .无根树:系统发克树的一种,找不到共同祖先的树根。只显示各相关总区间的进化关系但没有明确揭示出最早祖先序列的系就发育树。24 .基因组:指一个生物体、细胞或病赤的整奏基因。25 .基因组学:以基因组分析为手段,探讨基因妣的构成、时序表达模式和功能,并供应有关生物物种及其细胞功能的进化信总。26 .常因预料:预料DNA序列中编码蛋白质的部分,即外显子
6、部分。27 .功能基因组学:利用结构基因组学探讨所得到的各种来源的信息,珑立与发展各种技术和试脸模型,来测定基因及基因组非编码序列的生物学功能.28 .比较愚因组学:通过比技来探讨县国组的科学:通过模式生物基因组之间或模式生物原因组与人类基因组之间的比较与茬定,可以为探讨生物进化和分别人类遗传病的候选基因,以及预料新的基因功能供应依据。29 .生物信息学:利用计算机技术作为探讨手段和工具对生物学数据进行管理和分析。30 .表达序列标签EST:是从CDNA文库中生成的一些很短的序列,长300-500bp,它们代表在特定组织或发育阶段表达的基因。31 .基因芯片:足生物芯片的一种,又软DNA破距阵
7、,笑.由大量DNA或,寡核普酸探针宓集排列所形成的探针阵列,它的底本工作原理就是通过杂交检测信息。32 .PAM:PAM矩阵给出了进化过看中同源蛋白质一个氯基酸被另一个氨基酸替换的概率,一个PAM就量一个进化的变异单位,即1%的氨基酸变更。氯基酸替换可以用一个马尔科夫模型表示,将PAMl自乘N次,可以得到矩阵PAMNo因而,PAM25O矩阵代表了25亿年中250%的预期变更水平。33 .系统发育分析:就是依据特征或距离数据硼定基因、物种起源和发生关系的方法,分析的结果通常以系统发育树的形式干脆地呈现出来。二、推断题1 .序列的同源性越高,亲缘关系越近。2 .在序列比对时,馥如第一个空位罚10分
8、,延长一个罚I分,这种罚分方法叫做线性罚分。线性罚分和仿射罚分的区分。上述罚分规则属于仿射罚分。3 .所谓分子钟,就是指全部杳白质在终个进化过程中,进化速度大体积定。分子钟是指同一种蛋白在不同物种间的替换数与所探讨物种间的分歧年头数接近正线性美系,我们将这种分子水平的恒速变弄成为分子钟,并不是指全部委白质。4 .所谓信息位点,就是存在核苦酸差异的位点。信息为点指由位点产生的图表数目可以把一棵树与其他树区分开来的位点,假如一个位点是信息为点、,那么它至少有两种不同的核昔酸,并且每一种核芬酸至少出现两次。5 .分类单元数相同时,可能的有根树要比无根树多。只有当分类单元数为2的时候,有根数和无根树才
9、一样多.三、简答题1 .如何利用Dot-Plot方法发觉基因的内含子和外显子?将基因的原序列,包括外显子和内含子,与基因的CDNA序列采纳点阵方法比对,将出现一系列不连线的折线。由于CDNA只有外显子,断线部分为内含子。2 .如何利用Dot-plot方法发觉序列的更复序列和逆向更复序列?序列自身比对,与主时角域平行的狡段为史复区城,与主时角及垂直的为反向重复部分。3 .如何利用Dot-plo方法降低噪音?从点阵巾过速掉海机匹配可以明显地降低点阵图的噪声。过谑是指通过一个滑动窗口来比较两条序列.滑动窗口须要设定两个参数,窗D大小和网值.窗大小设置是每次检查的相邻核甘酸的数目,网值是指在这些相邻核
10、甘酸中须要完生匹配的最小字符数。由于DNA的核苻酸只有4种,而组成蛋白质的氯基酸有20种,所以点阵法进行DNA比计时,喙音过涯一般要选取较大的窗口,窗D为15,闷值为10:蛋白质选取2或3为窗D大小,阈值为2可以突出匹配区域。4 .在考虑茶白质序列对位得分矩阵时,如何由PAMl得到PAM250?诂说明这一过程的生物进化恁义。PAM把阵给出了进化过程中同源委白质一个氨基酸被另一个氨基战替换的概率,一个PAM洸是一个进化的变异单位,即1%的氮基酸变更。氨卷酸普换可以用一个马尔科夫模型表示,将PAMl自乘N次,可以得到题阵PAMN,因而,PAM250独阵代表了25亿年中250%的货期变更水平。5 .
11、在探讨序列时位GaP的罚分时,多采纲蛟性罚分模型与AfTinepenaltyGap罚分模型,介绍这两个模型并比.核它们之间的差异。线性罚分模型是个固定的罚分,无论有多少个连续的空格,每个空格所罚的分值相同,即多个空位的罚分是多倍的一个空位罚分。例如:一个空位为-5分,那么2个空位为-IO分,依次类推.仿射罚分,起始空位罚分大,延长空位罚分小的罚分方法,由两部分姐成,一是较大的空位引入罚分,另一部分是较小的罚分。可由方程W=g+r(x-l)计算。6 .有根树和无根树的区分有哪些?有根树是系统发育树的一种,树根代表进化史上最早的共同祖先:无根树也是系统发育树的一种,找不到共同祖先的树根。区分主要有
12、两点:在序列数相同的条件下,有根数的数量远高于无根树的数量,这将导致有根款出储的概率明显高于无根相:有根数能给出一个确定的祖先,而无根树只能确定序列和对亲绿关系的远近,不能给出序列的共同祖先。7 .试述如何利用Bootstrap方法检验系统发甯树的牢养性。对于一组序列,若采纳不同的方法进行系统发育树分析的结果相同或相近,则获得的系统发育树牢靠,若结果差异莪大,则要做更深化的分析,推断哪一种绍果更牢通常采纳Bootstrap方法,对构建的系统发育树进行回历型检脍。Bootstrap方法即致值史复抽样法。例如,对一组序列进行多序列比对,随机选择垂直列,组成一组新的序列样本,时该组序列进行发育树构建
13、,实行相同方法,以此类推,可得到很多随机产生的不同样本,再分别依据不同的取拜进疗系统发育分析,比较各个样本生成的系统树结构的相像度,确定最佳树形。8 .分子钟假说分子进化钟:分子进化钟认为生物分子进化过程中普遍存在这种有规律的钟,即分子进化速率近似恒定。这样便可依据已知年头的核酸祥品计算出序列变更率和进化事务之间的关系,从而推断物种间的分歧时间和特异的进化时间发生的时间.该假说的主要块点量,假定了分子进化是匀速进行,并以此为基以进行系统进化树的构建。事实上,该假说并不是无条件成立的,物种进化速率与很多因素有关,髻如群体的有效容量、群体的交配方式、时代间院的长短、自然选择力度、环境条件变史速率等
14、等。一旦匀速进化的假说不成立,据此构建的系统进北树与实际进化树之间将产生误差9,序列同源和相像的区分。相像性与同淞性是两个不同的概念,相互之间并没有干能的等同关系。相像只是描述性的词汇,弁不代表实质性的同淞。相像的不肯定是同源的.因为在进化的过卷中,来源不同的基因或序列由于不同的独立突变而“趋同”并不罕见。同源一般表现为和像,但同源并不疗定比非同源的相像程度高。功能相便或相同也不肯定必定向源,非同源原因的代谢功能替换已经有不少证据。其他表里相假也不肯定反应了同源.不同基因的不同突变就有可能产生“表型模拟”.10 .同源概念间的区分联系。直系同淞:两个不同的物种由于种分化而产生的相像序列。直系同
15、源的条件是:进化上起源于一个始祖基因并垂直传递的同港基因:分布于两种或两种以上物种的基因组:功能高度保守乃至近乎相同,甚至于在近母物种之间可以和互替换:结构相像:组织特异性与亚细胞分布相像。并系同源:同一物种曲于基因交复而产生的相像序列。立系与旁系的共性是同源,都源于各自的始祖基因。其区分在于:在进化越源上,克系同源是强调在不同基因组中的里五传递,并系同源是在同一基因组中的横向加倍:在功能上,直系同地要求功能高度相像,而并系同而在定义上对功能没有严格要求,可能相俅.但也可能不相像.展至没有功能。11 .蛋白旗的得分把阵等价矩阵:最筒洁的一种打分矩阵,它对全部匹配给相同的得分,全部的错配得分也相
16、同。遗传密码矩苒:通过计算一个教基酸度基转变到另一个氨基酸残基所需的碱基变更的最小数目而殍到.流水矩阵:依据氮基酸替换前后流水性的变更而得到的得分矩阵。Dayh。行氢后酸替换矩阵(PAM)Dayhofr和她的同事们探讨了71个相关蛋白质家族,序列相像度大于85%的芟自原序列中的1572个突变,他们首先用相像序列构建系统树,统计每种氨基酸替换为其他氨必酸的次数,同时还计算了不同氮基酸的相对突变力。模块氯蚊酸替换矩阵B1.OSUM,通过统计相像蛋白质序列的替换率而褂到,依据视察到的20(X)多个保守的货基酸模块中实除发生的挣换建立起来,这些模块是从包含500多个保守的我基酸模块库中提煤出来的。蛋白质掌族由具备相同生化功能的袅白质所组成,每个蛋白质家族中都有保守的连续氮趋敌模块,这些