《dbSNP数据库.ppt》由会员分享,可在线阅读,更多相关《dbSNP数据库.ppt(39页珍藏版)》请在优知文库上搜索。
1、有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(变异,也就是单核苷酸的多态性(SNP)。)。n 2001年二月,美、英等国宣布完成了人类基因体定序及分析初稿,这项划时代的创举将人类基因体科技带入新的境界,也连带开启了分子生物学、蛋白质体学、药物基因体学等新研究趋向。
2、人类基因译码初稿的完成,象征着人类基因体解读计划的第一阶段已告一段落。但接下来对于基因定序数据的检测与分析,以及运用这份草图来寻找个体间基因序列差异性个体间基因序列差异性的任务,才刚刚开始。n 了解个体间基因序列差异性的研究,不但对族群遗传学、演化学的研究相当重要,在利用连锁不平衡(Linkage Disequilibrium)进行复杂性遗传疾病(multiple genes diseases)的相关性研究上也扮演重要的角色。念法为snIp,是Single Nucleotide Polymorphism的英文简称,其中文译为“单一核苷酸多型性”,意思是“DNA序列中的单一碱基对(base pa
3、ir)变异”,也就是DNA序列中A、T、C、G的改变,即基因组的一个特异和定位的位点出现两个或多个的核苷酸可能性,它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每5001000个碱基对中就有1个,估计其总数可达300万个甚至更多。目前科学界已发现了约400万个SNPs 。部分密码子:UAU酪氨酸,UCU丝氨酸,UAC酪氨酸,UUG 亮氨酸,UGC 半胱氨酸,UUU 苯丙氨酸,AUG 甲硫氨酸编码连编码连基因的表达过程ab链:非模板链(编码连或有义链)链:模板链(非编码链或无义链)一一对应一一对应一一对应碱基的碱基的互补配互补配对原则对原则n
4、T-AnA-UnC-G保证了保证了遗传信遗传信息准确息准确无误地无误地表达。表达。模板链模板链(无义链(无义链)非模板链非模板链(有义链(有义链或编码连)或编码连)密码子n因为开发dbSNP 是为了补充和辅助 GenBank, 所以它包含了来自任何生物体的核苷酸序列。ndbSNP接收来自公共实验室和私人组织的提交。n每个提交至少包括以下10个主要数据元素: 侧翼序列上下文DNA或cDNA、等位基因、方法、种群、样本大小、特定种群的等位基因频率、特定种群的基因型频率、特定种群的杂合度估计、个体基因型、验证信息。dbSNP最新版本公告:可以通过不同的组件获取想要的信息表格的模式表格的模式DDL(S
5、QL Data Definition Language)。共享的共享的dbSNP_main数据字典数据字典实体联系图实体联系图n软件需求:软件需求:NCBI的的dbSNP运行于运行于MSSQL server version 2000n硬件需求:硬件需求:dbSNP所用的数据库organisms/、database/、specs/organisms/”其中包含具体生物体的表格、schema文件、共享schema文件、共享data文件。RefSNP文档综述RefSNP docsum簇的具体查询信息簇的具体查询信息簇成簇成员员SNP密度分布的概要报告密度分布的概要报告每个基每个基因中的因中的SNPs
6、的概要报告的概要报告序列数据序列数据参考参考SNP (RS)序列)序列数据数据database/”模式模式http:/www.ncbi.nlm.nih.gov/books/NBK44378/“specs/IUPAC代号代号快速查询单记录查询提交信息查询批量查询,一次能获取超过20000条的记录注意这里的关于数据库提示信息STS:是一段短的DNA序列,通常长度在100到500bp,易于识别,仅存在于待研究的染色体或基因组中。任何一个惟一的DNA序列均可作为STS.NCBI对STS的解释见:http:/www.ncbi.nlm.nih.gov/projects/genome/probe/doc/T
7、echSTS.shtml 选择“SNP”输入检索的基因名字,点击“GO”进行检索检索结果列表SNP名字或编号 rs193927898n说明:说明:ngnl: object-type=generalndbSNP: Database namenrs193927898: dbSNP rs# nallelePos=151: Offset of SNP in sequencentotallen=301: Total length of sequencentaxid=3702: taxIDnsnpClass=1: Variation Classnalleles=A/T: List of allelessn
8、pClass取值解释取值解释snpClass=1True single nucleotide polymorphismsnpClass=2Insertion deletion polymorphism; deletionsrepresented by - in allele stringsnpClass=3Variation has unknown sequence compositionbut is observed to be heterozygoussnpClass=4Microsatellite/simple sequence repeatsnpClass=5Allele sequences defined by name tag instead of raw sequencesnpClass=6Submission reports invariant region in surveyed sequencesnpClass=7Mixed classsnpClass=8Multiple nucleotide polymorphism (all alleles same length, where length 1)