生命科学算力解决方案白皮书.docx

上传人:王** 文档编号:1050130 上传时间:2024-03-22 格式:DOCX 页数:36 大小:471.74KB
下载 相关 举报
生命科学算力解决方案白皮书.docx_第1页
第1页 / 共36页
生命科学算力解决方案白皮书.docx_第2页
第2页 / 共36页
生命科学算力解决方案白皮书.docx_第3页
第3页 / 共36页
生命科学算力解决方案白皮书.docx_第4页
第4页 / 共36页
生命科学算力解决方案白皮书.docx_第5页
第5页 / 共36页
生命科学算力解决方案白皮书.docx_第6页
第6页 / 共36页
生命科学算力解决方案白皮书.docx_第7页
第7页 / 共36页
生命科学算力解决方案白皮书.docx_第8页
第8页 / 共36页
生命科学算力解决方案白皮书.docx_第9页
第9页 / 共36页
生命科学算力解决方案白皮书.docx_第10页
第10页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《生命科学算力解决方案白皮书.docx》由会员分享,可在线阅读,更多相关《生命科学算力解决方案白皮书.docx(36页珍藏版)》请在优知文库上搜索。

1、一、生命科学研究领域1(一)基因组学2(二)生物信息学2(三)蛋白质结构研究4(四)分子动力学模拟方法8(五)计算机辅助药物设计9二、生命科学算力解决方案12(一)高性能计算生命科学解决方案121、生命科学的主要软件和特点122、生命科学高性能计算参考架构14(二)人工智能加速生命科学解决方案191、Al发展加速生命科学的应用192、联想人工智能解决方案框架21(三)生命科学算力平台解决方案21三、生命科学参考客户案例24(一)某医院组学和深度影像学习平台241、学科平台需要支撑运行的软件252、算力平台建设要求和主要特点26(一)北京大学算力平台“未名生科一号”28图目录图1生命科学高性能计

2、算架构14图2Al应用加速行业转型19图3AI加速生命科学领域应用20图4联想人工智能算力框架21图5联想生命科学算力平台22图6组学分析系统架构28图7”未名生科一号”29图8水合离子的微观结构和幻数效应31图9DNA复制起点识别复合物3-A分辨率结构31图10”未名生科一号”节点使用率和用户作业数32图11“未名一号”节点使用率和用户作业数32图12兄弟院校前来参观交流33表目录表1主要生命科学学科的工作负载13表2学科平台需要支撑运行的软件25一、生命科学研究领域生命科学领域是对微生物、动物和植物等所有生物进行研究的科学领域,同时也包括生物伦理学等相关领域。生命科学的研究是为了提高人类的

3、生活品质。目前生命科学已经在医疗、农业、保健、食品工业和制药等行业得到广泛应用。生命科学的研究不断造福人类。虽然当前生物学仍然是生命科学的中心,但随着分子生物学和生物技术的发展,生命科学已经成为一个专精化、多学科交叉并且已经进入快速发展的领域。全球范围内来看,从21世纪开始,全球生命科学领域的发展进入快车道,尤其是人类基因组计划的实施、干细胞研究的不断深入、克隆技术的不断发展等因素都将生命科学领域的发展推向了新的高度,与之相对应领域的研发投入也在不断增加。作为对科技信息技术有强依赖的典型代表,生命科学行业的药物研发和基因测序分析领域面临着计算资源紧缺、研发周期长等问题。为了解决这些问题,相关企

4、业一方面自建高性能计算平台,另外一方面也开始从传统IT转向上云,希望借助云计算平台的资源来从事和加速药物研发速度、提升测序数据分析效率,加快业务创新步伐,为用户创造更大价值。新药的诞生通常需要经历药物发现、临床前研究、临床试验和审批等阶段后,最终才可以获批上市。在靶点发现、化合物合成等药物发现阶段以及化合物筛选等临床前研究阶段,往往需要借助高性能计算强大的计算能力才能加速研发过程辅助药物设计。(一)基因组学基因组学是指对生物体所有基因进行基因组作图、核甘酸序列比对分析、基因定位及基因功能分析的一门学科,而基因测序则是针对基因组学研究的检测分析技术。基因组学所对应的研究主要包括结构基因组学和功能

5、基因组学两个方面。结构基因组学代表基因组分析的早期阶段,一般以基因组测序为目的,得出生物样本的静态碱基序列,并构建生物体的基因图谱,一般基于高通量测序技术生成生物的碱基序列。功能基因组学也称作后基因组学,基于结构基因组所提供的数据及信息,结合计算机科学,同时对多个基因片段进行系统性的分析研究,主要研究内容包括:基因突变检测(SNP,InDeD基因表达分析及基因功能发现等。基因测序的业务流程主要包括样本上机(测序仪)、测序文件生成、基因序列比对及结果分析(计算机),并将结果数据及报告交付至各科研医疗机构。其中,基因序列比对及分析环节极为耗时,涉及大量的生信领域专业软件,计算资源的算力性能及方案优

6、化对生信研发效率起着至关重要的作用。(一)生物信息学进入21世纪以来,随着人类基因组计划的相继完成和各种模式生物的基因组计划的顺利实施,以及基因测序技术的不断进步,生命科学研究得到了巨大的发展。同时,海量的有关生物序列的数据量不断增加。这些数据具有丰富的内涵,其中蕴含着大量的人类尚且不知道的生物学奥秘。生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的一门学科,与以观察和实验为主的传统生物学研究不同,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所蕴含的生物学奥秘。生物信息学把DNA序列、蛋白质序列以及其它相关生物数据作为分析对象,力求揭示DNA编码区

7、、蛋白质、RNA基因以及其基因组中非编码序列的信息实质。DNA测序技术是现代分子生物学研究中最常用的技术。自1977年第一代测序技术问世以来,经过三十多年的发展,DNA测序技术取得重大进展,以高通量为特点的第二代测序技术逐渐走向市场,以单分子测序为特点的第三代测序技术也已经出现,其分别在测序特点上占有不同的优势。测序技术的快速发展,使小型化/台式高通量测序仪成为现实,这意味着大规模基因组测序将不再是大型实验室或科研中心的专利,中小型实验室、公司、临床检验中心都将能够利用高通量测序技术快速高效的获取大量信息,进行科研或开发应用。DNA测序包括全基因测序和基因组重测序。新一代高通量测序技术的发展,

8、使得物种全基因组测序变得速度快、效率和准确率更高,越来越多的物种基因组信息相继公布。全基因组测序主要应用与基因组序列未知的物种,DNA片段测序后,用生物信息学软件对序列进行拼接、组装,从而获得该物种的基因组序列图谱。基因组重测序是指该物种基因基因组序列已被测序,有参考基因组序列的测序工作。第2代高通量测序技术目前应用最为广泛的领域就是对已知基因组物种进行重新测序,基因组结构变异、单核甘酸多态性、群体多态性、突变热点等重要信息都是通过重测序研究发现的。目前已知的序列比对方法很多,依据不同的划分方式有不同的分类。根据同时进行比对序列的数目分为两两比对和多序列比对,从比对范围考虑分为全局比对和局部比

9、对。多序列比对算法的基础是动态规划比对算法,但随着比对序列数目及长度的增加,问题的解空间也急剧增大。多序列比对的常用算法有渐进算法、隐马尔科夫模型、迭代比对法等。累进方法是最常用的启发式多序列比对算法。(三)蛋白质结构研究结构生物学是通过研究生物大分子的结构与运动来阐明生命现象的科学。药物设计、疫苗开发和蛋白质分子性能改造等应用领域都以结构生物学的研究成果为基础。X射线晶体学、核磁共振波谱学、电子显微三维重构(亦称电镜三维重构)是结构生物学的三大研究手段,具有不同的优势。核磁共振波谱学可以获得蛋白质在溶液中的三维结构,能够分析蛋白质的动态变化,但是研究对象的分子量通常难以超过20kDoX射线晶

10、体学通常可以获得生物大分子原子分辨率的三维结构,但对于分子量较大、较复杂的生物复合分子体系,其晶体难以获得,结构解析难度也较大。当研究对象的尺度越来越大的时候,电子显微三维重构技术,特别是低温电子显微三维重构技术,就显示出其重要的作用,利用该技术我们可以获得分子量巨大(200kD以上)的超分子复合体系的纳米分辨率三维结构,弥补晶体学和核磁共振分析技术的不足,架起从蛋白质、蛋白质复合体、超分子复合体系到亚细胞系统的三维结构研究的桥梁。电子显微三维重构技术的基本原理基于中央截面定理:三维物体沿电子束方向投影的傅立叶变换,是该物体所对应的傅立叶空间中通过中心且垂直于投影方向的一个截面。那么一个物体的

11、完备投影的二维傅立叶变换一定能够完全填充该物体的三维傅立叶空间,因此物体的完备投影与物体的三维结构是等价的。实验中,我们收集到大量全同颗粒在不同方向的投影(单颗粒),或同一样品在不同角度的投影(断层成像),首先通过等价线(commonline).投影匹配等方法确定每张投影图像的取向和中心(断层数据角度已知,只需精修即可),然后对每张投影图进行傅立叶变换,按照投影方向填充到三维傅里叶空间对应的切面,并进行差值计算得到倒空间的网格点数值,最后再进行反傅立叶变换,就可得到实空间的三维结构。三维重构理论的建立使得利用电子显微镜来解析蛋白质等生物大分子的三维结构成为可能,但是需要解决的问题是电子束打到生

12、物样品上时会带来比较严重的辐射损伤,从而丢失了许多结构信息,在低温电镜(低温电镜的目的是提高生物样品对电子辐射的耐受力,同时减少图像热噪声)和低剂量辐照成像技术出现以前,人们只能采用重金属负染的方法来获得生物大分子的嵌影结构(不是真正的分子结构)。到了80年代,快速冷冻含水生物样品的制备技术和低温电子显微镜技术的快速发展并实用化,为利用电子显微技术研究蛋白质三维结构奠定了基础。特别是1984年,Dubochet等发表了第一张病毒的低温电子显微镜照片,开创了低温电镜的研究时代。自此,在低温电子显微术、低剂量辐照成像术和电子显微三维重构理论的基础上,一门新的学科领域形成了,即低温电镜结构生物学,这

13、一领域无论是在方法学上还是在蛋白质结构研究上,在近二十多年间都获得了快速发展,取得许多重要成果。利用低温电子显微术和三维重构技术解析蛋白质超分子复合物的结构迄今已分化发展为三种具有不同特点和适用范围的方法:电子晶体学(EIeCtronCrystallography),主要处理二维晶体样品;单颗粒三维重构技术(SingleParticleAnalysis),主要解析具有全同性的蛋白质分子的三维结构;电子断层三维重构技术(EleCtrOnTomography),主要针对不具有全同性的超分子体系和亚细胞体系。第一种:电子晶体学象并结合电镜的成像数据,我们就可以解析出这些大分子的三维结构;第二种:单颗

14、粒三维重构等;第三种:电子断层三维重构。质谱方法(MassSpectroscope,MS)是通过正确测定蛋白质分子的质量而进行蛋白质分子鉴定、蛋白质分子的修饰和蛋白质分子相互作用的研究,基本原理是带电粒子在磁场或电场中运动的轨迹和速度依粒子的质量与携带电荷比(质荷比,M/Z)的不同而变换,从而可以据此判断粒子的质量及特性。但长期以来,质谱方法仅限于小分子和中等分子的研究,因为要将质谱应用于生物大分子需要将之制备成气相带电分子,然后在真空中物理分解成离子。但如何使蛋白分子经受住离子化过程转成气相带电的离子而又不丧失其结构形状是个难题。20世纪70年代,解吸技术的出现成功地将蛋白分子转化成气相离子

15、。尔后快原子轰击与其紧密相关的溶液基质二次离子质谱法使得具有极性的、热不稳定的蛋白分子可经受住电离过程。但这些方法仅限于IOkD以下蛋白分子的研究。80年代电喷雾电离(ESD和软激光解吸(SLD)电离技术的发展则使得质谱方法应用于高分子量蛋白分子的研究。在用于蛋白质分析的质谱技术中,蛋白质样品首先被选定的蛋白酶水解,形成多肽。不同质量电荷比的多肽离子被质谱仪分离、检测出来,得到一级质谱。这些肽离子可以进一步被打碎,形成碎片离子。碎片离子被分离和检测便得到串联质谱。用质谱鉴定蛋白质的方法因此分为两大类:第一类是基于一级质谱的,称作肽质量指纹作图。这类方法搜索已知蛋白质数据库,用指定的酶对蛋白质进

16、行模拟水解,得到理论一级质谱。理论一级质谱与实验一级质谱进行比较,结果按照匹配的程度排序。这样的系统有MOWSE,Mascot,ProFound,PeptIdent,MS-Fit等等。肽质量指纹作图适用于蛋白质样品包含一种蛋白质或简单的混合物的情况。其缺点是由于蛋白质混合物和污染物、部分酶解、残基修饰(所谓氨基酸残基是指去掉一个水分子的氨基酸)、质量精度等因素的影响,往往误差较大,导致搜索结果错误。第二类是基于串联质谱的。这类方法首先利用串联质谱技术(TandemMassSPeCtrOmetry,MS/MS)准确测定肽的氨基酸序列,再通过肽序列鉴定蛋白质的序列。所以,这种方法可以用于鉴定复杂的蛋白质混合物或者验证肽质量指纹搜索的结果,是目前最常用最有效的主流方法。为了鉴定蛋白质,从串联质谱鉴

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 解决方案

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!