2024下一代高性能算力底座技术白皮书-70正式版.docx

上传人:王** 文档编号:1599273 上传时间:2024-11-24 格式:DOCX 页数:45 大小:319.53KB
下载 相关 举报
2024下一代高性能算力底座技术白皮书-70正式版.docx_第1页
第1页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第2页
第2页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第3页
第3页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第4页
第4页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第5页
第5页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第6页
第6页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第7页
第7页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第8页
第8页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第9页
第9页 / 共45页
2024下一代高性能算力底座技术白皮书-70正式版.docx_第10页
第10页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2024下一代高性能算力底座技术白皮书-70正式版.docx》由会员分享,可在线阅读,更多相关《2024下一代高性能算力底座技术白皮书-70正式版.docx(45页珍藏版)》请在优知文库上搜索。

1、1.1.2 虚拟机211.1.3 容器221.1.4 GPU服务器221.1.5 应用场景与选择策略232.3 网络业务分析242.4 存储业务分析252.5 安全业务分析262.6 平台服务业务分析272.6.1 数据库272.6.2 中间件272.6.3 服务治理283*鹰性能云计91/晚修293.1 通用算力技术分析293.1.1 CPU的计算能力发展历程293.1.2 云计算卸载技术为CPU算力提升带来的优势303.1.3 I。D技术为HyPerViSor卸载提供最佳支撑323.2 智算算力技术分析343.2.1 GPU的计算能力发展历程343.2.2 GPU算力提升带来与网络吞吐的矛

2、盾现状353.2.3 无损网络技术为A1.训练带来的性能提升363.3 云计算网络技术分析383.3.1 云计算网珞是算力连通的基础383.3.2 云计算网关是算力开放的门户393.3.3 高性能云计算需要网络卸载进行性能提升393.4 云计算存储技术分析423.4.1 单一存储技术方案无法满足云计算要求423.4.2 云存储需要引入新技术突破性能限制433.4.3 I。D技术可以提升存算分离架构下的处理性能443.5 云计算安全技术分析453.5.1 纷繁庞杂的云计算安全体系453.5.2 安全处理性能提升需要异构算力加持463.5.3 安全卸载技术在高性能云安全中至关重要473.5.4 D

3、PU将成为可信计算服务中的重要组件473.5.5 I。D技术助力构建“零信任”网络483.6 云计算服务治理技术分析503.6.1 服务治理技术是云原生时代的重要基础503.6.2 传统服务治理技术的局限性503.6.3 I。D技术带来新的服务治理模式513.7 IaaSonDPU(IoD)高性能云计算全景514育性修云计算系传架构持演进534.1 高性能云计算可观测性建设534.1.1 可观测建设是云计算运维体系的关键环节534.1.2 当前观测方法所面临的难题544.1.3 高性能云可观测性建设建议554.2 轻量级虚拟化系统演进架构革新564.2.1 轻量级虚拟化技术演进路线564.2.

4、2 轻量级虚拟化技术为云计算带来新气象574.2.3 DPU+轻量级虚拟化=新一代技术革命584.3 “一云多芯”系统庭合594.3.1 一云多芯1的应用困境594.3.2 I。D技术有肋于完善“一云多芯”的服务评估体系595育性鲁云计算为PaaS1.K务JRgB615.1 高性能大数据计算服务615.2 高性能中间件服务625.3 高性能数据库服务626*未来AM64第1章云计算发展趋势1.1 云计算系统已经成为数字世界的“操作系统”1.1.1 云计算的发展历程云计算技术的最初起源可以追溯到20世纪50年代ChristopherStrachey发表的CrimeSharingin1.argeF

5、astComputer)论文,开启了对虚拟化技术探讨的大门。随后的60年代,以旧M与M1.T为首的产业与学术巨头纷纷投入相关研究并在虚拟化领域取得了众多突破,最具代表性的事件是1974年,Gera1.dJ.Popek和RobertP.Go1.dberg发表论文(Forma1.RequirementsforVirtua1.izab1.eThirdGenerationArchitectures,提出了波佩克与戈德堡虚拟化需求(PopekandGo1.dbergvirtua1.izationrequirements)和I型与I1.型虚拟化类型。随着虚拟化技术的不断成熟与基础算力设施能力的提升,使得具

6、备一弹性、按用计量、在线、无限这几个云计算典型特征的业务类型逐步具备了落地应用的可行性.期间虚拟化技术领域也涌现出了Qemu、Xen、KVM等众多明星项目。终于在2006年,Goog1.e时任CEOEricSchmidt在搜索引擎大会上首次提出PoudComPUting-概念.亚马逊在同年成立了亚马逊网络服务公司(AWS),云计算产业轰轰烈烈的发展起来。2010年,OPenStaCk项目创建,标志着云计算技术进入平民化时代,将云计算行业发展正式推向了高潮。云计算技术的另一个分支,容器技术起源于20世纪70年代UnixV7引入的Chroot工具,并在2009年以1.XC形式成为1.inux内核的

7、容器管理器。容器技术凭借显著的轻化优势取得快速发展并借助CNCF社区进行大力推广,在2018年发布的云原生技术定义中,容器被确立为云原生的代表技术之一。随着业务的多样化发展,云原生技术逐渐显现出强大的统治力,成为未来发展的主要方向。伴陵酒云计算的蓬勃发展,当前世界上的主要算力基础设施几乎都是通过云计算技术进行管理与调度,可以说云计算技术已经成为数字世界的操作系统1.1.2 云计算技术特点云计算的发展呈现出显著的业务驱动特征,当前AIGC、IoT、5GB5G.Web3.0等行业的发展一方面要求云计算技术随为其提供融合性的底层技术支撑,能够按需以裸金属、容器或虚拟机形式承载上层业务,另一方面对云计

8、算性能也提出了前所未有的要求。于是我们看到,OpenStaCk社区涌现出大容器相关项目,如ZUn、Magnum、Kyrur等,CNCF社区中的KUbeVirtMetaI3等项目也逐渐成熟,这些都是为提供多模态服务类型做出的努力。同时.融合了CPU、GPU与DPU的“3U一体”新型服务器成为当前云计算算力基础设施的主力形式,CPU负责调度管理与运行业务进程,是通用“算力”的承载组件,GPU负责提升大规模并行运算能力,是智算“算力”的核心引擎,DPU负责算力集群菽础设施卸载与集群的联通,三者通力合作,构成了高性能云计算的菽础底座。历史的经验告诉我们,技术的发展总是呈现出摆旋式上升的样貌。也总有人调

9、侃,当前的问题都可以在故纸堆中找到答案。虽然异构运算并非新鲜事物,但随着单项技术的突破与不同技术领域间的融合,在当下,如图1.1所示的基于“3U一体”的融合算力基咄设施构建的融合性云计算平台,正是支撑不断爆发的上层业务应用运转的最佳实践方案。算力中心i三P算力节点J1.力单元CP5通用算力GPU-智能算力DPU-基础算力维护应用生态大模型训练/推理远程资源本地化局部资源管理视频/VR/AR异构资源虚拟化B1.1:3U一体”融合基础设施总体来说,当前云计算技术的发展呈现出如下典型特征:业务承载多模化为了满足业务向云端平滑迁移的需求,会要求云平台能够适配业务系统的当前情况,从容器、虚拟机、裸金麻中

10、选择最佳的云上承载方式。例如对逐件设施有特殊需求的业务褥要通过裸金属承载,对操作系统有特殊需求的业务以虚拟机承载,其余业务以容器承载。计算性能极致化在A1.GC大爆发的背景下,上层业务系统从网络性能、存储性能、安全性能等众多方面都对云平台提出了更高的要求,百G级别的以太网络接入能力已经逐渐成为云计算系统的标配,400G的无损网络接入也逐渐在行业落地。系统构成组件化云计算技术体系越来越庞杂,单独的封闭体系很难满足来自业务系统层出不穷的各种需求,良好的模块划分与AP1.设计已经成为主流云计算系统的构成基础。“开放、可替换”模式已经成为云计算技术架构的主旋律。1.2A1.产业催生高性能云计算需求1.

11、2.1 A1.技术发展柢述人工智能(Artificia1.Inte1.1.igence,简称A1.)是指通过计算机技术和算法模拟人类智能的一种技术。目标是使计算机能够模拟人的思维方式和行为,让计算机可以像人类一样思考和学习,并最终实现自主决策的智能化行为。进入21世纪后,互联网的普及和大数据的爆发为A1.提供了丰富的训练材料,加速了算法的发展。2006年加拿大Hinton教授提出了深度学习的概念,极大地发展了人工神经网络算法。2012年,AIexNet在ImageNet竞赛中取得突破性成果,标志启深度学习时代的到来。当前人工智能处于深度学习和生成式A1.大发展的时期。过去十多年基于深度学习的人

12、工智能技术主要经历了如下的研究范式转变:从早期的1数据标注监督学习“的任务特定模型,到“无标注数据预训练+标注数据微调”的预训练模型,再到如今的“大规模无标注数据预训练+指令微调+人类对齐的大模型,经历了从小数据到大数据,从小模型到大模型,从专用到通用的发展历程,人工智能技术正逐步进入大模型时代。自2017年Goog1.e提出TranSfOrmer模型以来,A1.大语言模型(1.1.M,1.arge1.anguageMode1.)已取得飞速进展。2022年底,由OPenA1.发布的基于GPT3.5的语言大模型ChatGPT引发了社会的广泛关注。在“大模型+大数据+大算力11的加持下,ChatG

13、PT能够通过自然语言交互完成多种任务,具备了多场景、多用途、跨学科的任务处理能力。以ChatGPT为代表的3 .分布式训练:云计算平台支持模型的分布式训练,通过多节点并行计算,可以处理更大规模的数据集和更复杂的模型.同时减少训练时间。这对于大型语言模型、图像识别模里等尤为重要。4 .模里优化:利用云计算资源,可以进行大量的模型调优实的,比如超参数调优、模型架构搜索等,找到最优模型配厘。云计算的灵活性允许数据科学家和工程师快速迭代,提高模型性能。5 .存储与IO性能:高速的存储系统和优化的IO性能减少了数据读写瓶颈,确保训练过程中数据的快速存取,这对于大规模数据处理和模型训练至关重要。6 .资源

14、调度与自动化:云平台的智能资源调度能力可以根据A1.训练任务的需求动态调整资源分配,保证计算资源的高效利用。自动化工具和服务进一步简化了模型训练流程,降低了操作复杂度。7 .成本效益:云计算的按需付费模式降低了进入门槛,使得企业和研究机构无需前期大量投资硬件设施,就可以开展高级A1.项目,促进了A1.技术的普及和创新。缘上所述,云计算不仅提供了必要的基础设施来支撑A1.训练,还通过其灵活、高效、可扩展的特性,直接促进了A1.模型训练质和效率的提升,推动了A1.技术的快速发展和广泛应用。1.2.3主流A1.训练的云计算支撑架构智算云数据中心架构可划分为基础设施层、管理调度层、大模型平台层、AIG

15、C应用层,各层的作用说明如图1.2所示:n1.2:智算中心架构基础设施层适度超前建设,满足面向未来客户的算力多元化需求,基于开放计算,兼倾软硬件将DPU能力引入到云原生技术栈中,并将Worker节点的基础设施组件完全运行在DPU中。MMIefBMComponentVM-ComponeMC1.uvter-Pr*d*CSKontroNr1.me-Conro1.tefX-Comro1.1.erSeMCMthCNIorttroUfWorker1.5:IoD技术架构图如图1.5所示,典型的IoD技术部署在DPU上的核心组件包括: BM-Agent:裸金属业务组件,裸金属系统盘采用DPU虚拟的磁盘,通过在虚拟磁盘中挂载用户镜像,可以实现裸金属业务的快速切换与业务温迁移。 VM-Agent:虚抵机业务蛆件,通过监控本机虚拟机声明和实例资源,实现对服务器上所有虚机实例的管理。 CM-Agent:容器业务组件,定期从Kubernetes接收新的或修改的Pod规范,并确保Pod及其容器在期望规范下运行。 CNI-DP

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!