面向超万卡集群的新型智算技术白皮书.docx

资源描述

《面向超万卡集群的新型智算技术白皮书.docx》由会员分享，可在线阅读，更多相关《面向超万卡集群的新型智算技术白皮书.docx（27页珍藏版）》请在优知文库上搜索。

1、第一章：超万卡集群背景与趋势11.1 大模型驱动智能算力爆发式增长11.2 超万卡集群的建设正在提速1第二章：超万卡集群面临的挑战42.1 极致算力使用效率的挑战42.2 海量数据处理的挑战42.3 超大规模互联的挑战52.4 集群高可用和易运维挑战52.5 高能耗高密度机房设计的挑战6第三章：超万卡集群的核心设计原则和总体架构83.1 超万卡集群的核心设计原则83.2 超万卡集群的总体架构设计8第四章：超万卡集群关键技术104.1 集群高能效计算技术104.2 高性能融合存储技术144.3 大规模机间高可靠网络技术154.4 高容错高效能平台技术184.5 新型智算中心机房设计24第五章：未

2、来展望26缩略语列表28参考文献29第一章：超万卡集群背景与趋势1.1大模型驱动智能算力爆发式增长自ChatGPT面世以来，大模型步入了迅猛发展期，模型层出不穷，爆点频出，Scaling1.aW1不断得到验证，高速发展的人工智能对数字经济产生了巨大赋能作用。大模型所使用的数据量和参数规模呈现“指数级”增长，2018年BERT模型参数量仅有1.1亿,到2021年GPT-3达到了1750亿。随着MixtureofExperts(MoE)2等先进模型结构的出现，模型参数迈入万亿规模。预计在未来的2-3年，随着Al技术的进步和算力提升，Scaling1.aw还将延续，助推模型参数向十万亿进军。大模型能

3、力的不断跃迁，使得超长序列应用、文生视频、文生音频等基于多模态的应用层出不穷，大模型在各个领域均展现出了强大的智能化能力，“A1+”对生产生活带来了巨大影响。ChatG1.Nk1.1.aMA3Gemini等大模型的发布更加坚定了科技界持续摸高大模型能力天花板的决心；文生视频多模态大模型Sora的问世更加引爆了行业热点，促使业界在大模型的技术、规模和应用上不断挖掘，以期能创造下一轮爆点。Al技术的发展带动产业大规模升级的同时，也带来了对巨量算力和能源的需求。据公开信息报道，GPT-3训练所消耗的电力，相当于美国约121个家庭一整年的用电量。GPT-4拥有16个专家模型共1.8万亿参数，一次训练需

4、要在大约25000个AlOO上训练90至UloO天。大模型对底层算力、空间、水电能源产生极大消耗，对新一代智算设施的设计要求也日益严苛。更高密度的算存硬件、高性能无阻塞的网络连接以及更高并行度的通信和计算范式成为新一代智算中心的设计目标，新型智算中心(NICC,NewIntelligentComputingCenter)4相关技术将继续被推向新的高度。12超万卡集群的建设正在提速人工智能新纪元，算力为企业科技创新和转型提供有力支撑。在全球化的科技竞争格局中，领先的科技公司正积极部署千卡乃至超万卡规模的计算集群，既是展现其在人工智能、数据分析、大模型研发等前沿领域的技术实力，也向外界展示了公司对

5、未来科技趋势的深远布局。在国际舞台上，诸如GoogleMetaMicrosoft等科技巨头，正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。如Google推出超级计算机A3VirtualMaChineS,拥有26000块NvidiaHlOOGPU,同时基于自研芯片搭建TPv5p8960卡集群。Meta在2022年推出了一个拥有16,000块NvidiaAlOO的Al研究超级集群AlResearchSuperCluster,2024年初又公布2个24576块NvidiaHlOO集群，用于支持下一代生成式Al模型的训练。这些企业通过成千上万台服务器组成的集群计算优势，不

6、断优化服务架构，提升用户体验，加速新技术的市场转化与应用。在国内，通信运营商、头部互联网、大型Al研发企业、Al初创企业等均在超万卡集群的建设和使用过程中不断推动技术革新。（一）通信运营商作为国家算力基础设施建设的中坚力,利用其庞大的机房资源和配套设施优势，正加速推进超万卡集群智算中心的建设。这一举措不仅为运营商自身的大模型研发提供强大的计算支持，同时也为政府、高校和企业客户带来了前所未有的高质量智算服务。随着智算中心建设的不断深入，运营商站在连接技术创新与行业应用的关键位置，其在推动社会数字化转型和智能化升级中的引领作用日益凸显。（二）头部互联网企业作为技术创新的先锋，通过建设超万卡集群来加

7、速其在云计算、大数据分析和大模型研发等领域的突破。字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进超万卡集群的建设。其中，字节跳动搭建了一个12288卡Ampere架构训练集群，研发MegaScale生产系统用于训练大语言模型5。通过集群的强大计算力，这些头部互联网公司不仅加速了自身业务的数字化转型，也为国内科技产业的发展贡献了创新动力。（三）大型Al研发企业出于对大规模模型训练和复杂算法计算的迫切需求，正在积极投建超万卡集群。这些公司作为人工智能领域的先行者，正积极投建超万卡集群以满足其大模型的计算需求。如科大讯飞，2023年建设成首个支持大模型训练的超万卡集群算力平台“飞星一号”。此类

8、集群的建立，不仅为这些企业在Al领域的深入研究提供了必须的算力支撑，也为他们在智算服务的商业应用中赢得了先机。（四）Al初创企业则更倾向于采取灵活的租用模式，利用已有的超万卡集群来支持其创新项目。这些企业为了能够实现应用和投入平衡，大多对基础设施采取灵活的租用模式，利用超万卡集群的强大计算能力来支持其创新项目。这种模式降低了初创企业的初始投资门槛，使他们能够快速获得高性能的计算资源，加速产品的研发和迭代。整体而言，无论是通信运营商、头部互联网企业、大型Al研发企业还是Al初创企业，都在通过自建或使用超万卡集群加速其在人工智能领域的技术突破和产业创新。随着超万卡集群建设的不断深入，我们预见这一趋

9、势将为整个智算产业的发展带来深远影响。第二章：超万卡集群面临的挑战当前，超万卡集群的建设仍处于起步阶段，主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商，其产品在大模型训练上有较大优势。得益于政策加持和应用驱动，国产Al芯片在这两年取得长足进步，但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。2.1极致算力使用效率的挑战大量实践表明，针对大模型分布式训练场景，集群规模的线性提升无法直接带来集群有效算力的线性提升，卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。我们把集群有效算力分解为“GP

10、U利用率”和“集群线性加速比”两个重要指标，其中“GPU利用率”受限于芯片架构和制程、内存和I/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素，“集群线性加速比”则取决于节点间的通信能力、并行训练框架、资源调度等因素，两者的最大化发挥将最终表现为模型训练效率提升和成本降低。在超万卡集群中，需要运用系统工程方法，通过对超万卡集群网络的精细化设计、软硬件全栈整合优化，综合提升集群算力使用效率。2.2海数据处理的挑战千亿模型的训练需要对PB量级的数据集使用多种协议进行处理，未来万亿模型的训练对checkpoint的读写吞吐性能更是要求高达IOTBs,现有智算存储系统在协议处理、数据管理、吞吐性能等方

11、面面临诸多挑战：协议处理层面：传统智算存储系统按照块、文件、对象等不同协议建设分立存储池，多套不同协议存储系统之间需要来回拷贝数据，影响数据处理效率，浪费存储空间，增加运维难度；吞吐性能层面：传统智算的分布式文件存储仅支持百节点级别扩展，节点规模小，难以提供超万卡集群所需的IOTB/s以上的数据吞吐性能；数据管理层面：传统智算的数据存储需人工干预，进行冷热分类，并在高性能和普通性能存储集群之间迁移。跨系统的数据管理和迁移降低了大模型下海量数据处理效率，还会额外占用网络带宽和计算节点资源。因此，超万卡集群的存储系统需要通过协议融合、自动分级等一系列技术手段，提供高效的数据共享和处理能力，满足大模

12、型训练的需求。2.3超大规模互联的挑战模型规模扩大到万亿量级，数据的吞吐量和计算量已远远超过目前最强单机单卡能力，多机多卡互联和并行训练策略成为必须。以在超万卡集群部署1.8万亿GPT-4为例，在大模型训练过程中，每轮迭代计算都涉及前反向传播算法的计算和通信，这对超万卡集群的ScaleOut和ScaleUP网络提出极大挑战。在ScaleOut互联层面，网络承载数据并行(DataParallel,DP)和流水线并行(PiPeIineParaIIeIjPP)流量，参数面网络带宽需达到200GbPS至400Gbps,数据面网络需要配备100GbPS带宽，保证数据读取不成为训练瓶颈。此外，参数面网络

13、还需要应对因多租户多任务并行训练通信特征不规整、上下行ECMP(EqualCostMultiPath)选路不均衡而引发的高速大象流的交换冲突和拥塞。在Scaleup互联层面，由于MoE专家并行和张量并行(TenSOrParallel,TP)的通信无法被计算掩盖，不仅要求卡间互联带宽达到几百甚至上千GB的量级，而且应突破当前单机8卡的限制，以支持更大参数量的模型训练。此外，Scaleup互联还需要保持高频度、低时延、无阻塞的通信模式。2.4集群高可用和易运维挑战超万卡集群承载万亿模型训练意味着千万器件的满负荷高速运转，任一部件不可恢复的失效都可能导致训练中断，带来超万卡集群高可用和易运维的关键

14、挑战：千万器件维护管理难度大：超万卡集群由数千台智算服务器+数千台交换机+数千台存储设备以及数万根光纤/数万颗光模块构成，训练任务涉及千万颗元器件满负荷高速运转，基于固有的元器件硬件失效率和海量的器件规模带来硬件故障频发，涉及到的软硬件故障模式繁杂，故障管理挑战巨大；复杂系统故障定位难度大：万亿模型训练的过程是各个软硬组件精密配合的过程，一旦发生问题定界定位复杂。业界典型硬件故障定位需广2天，复杂应用类故障定位可能长达数十天。快速自动定界定位能力需要结合实际运维经验进行系统性积累和针对性持续改进。高负荷运行故障概率高：万亿大模型训练至TTA(TimeToAccuracy)一般需要一百天7X24

15、小时满负荷运行。而硬件MTBF(MeanTimeBetweenFailure)伴随集群规模的增长越来越短，万亿大模型训练作业中断频发，业界超万卡集群持续稳定运行仅数天，断点续训恢复缓慢，直接影响模型训练效率。超万卡集群急需支持更有效、更快速、影响更小的自动断点续训功能。2.5高能耗高密度机房设计的挑战超万卡集群对机房配套设施的需求相对于传统IDC云数据中心发生重大变化，对供电、承重、机房洁净度和走线架设计等有极高要求：在供电方面，当芯片TDP设计功率上升至400700W,单柜功率从原先的78KW上升至40KW甚至60KW,集群整体功耗将攀升至数十上百MW,机房需要进行功率提升改造，并配合进行

16、散热能力提升改造；在承重方面，由于集群规模翻番增长，为了保障单位空间的算力密度，需要引入液冷方案，确保智算芯片的高速运行，单机柜重量达1-2吨，对机房承重提出高标准要求；在机房洁净度方面，由于超万卡集群参数面网络使用大量100G、200G甚至400G的高速光模块，高速光模块本身是一个集成度极高的器件，裸露的光纤通道和内部器件都比较脆弱，要尽可能避免落入灰尘，降低故障率。因此机房需要综合考量制冷和通风方案，在设备侧保持较高的洁净度标准，确保后期集群的稳定运行。在线缆布放方面，由于超万卡集群的算力密度更高、功耗密度更高，线缆的布放量也随之增大。以一个18万卡的智算集群为例，需要布放10万量级的线缆，这将对走线架的宽度和承重带来新

展开阅读全文