《人工智能大语言模型发展技术研究 2024.docx》由会员分享,可在线阅读,更多相关《人工智能大语言模型发展技术研究 2024.docx(41页珍藏版)》请在优知文库上搜索。
1、目录第一章大语言模型发展基石(一)软硬协同持续推动大模型能力提升11 .大模型发展对算力需求成井喷式增长12 .AI芯片自研和算力优化成为应对算力需求的重要手段3 .计算、存储、网络协同支持大模型训练34 .深度学习框架是大模型研发训练的关键支撑55 .大规模算力集群的创新应用与突破6(二)数据丰富度与质量塑造大模型知识深度与广度.71.大模型对数据数量、质量提出新要求76 .产业各方加快构建高质量丰富数据集I1.(三)算法优化与创新推动大模型能力升级141.多阶段对齐促进大模型更符合人类价值观142.运用知识增强提升模型准确性15第二章大语言模型发展现状16(一)模型训练推理效率及性能明显提
2、升17(二)围绕中文生成与推理能力构筑比较优势18(三)模型应用生态更加丰富多样18(四)海量数据处理基础能力不断增强19(五)采用多模型结合的路线加速应用落地20第三章大语言模型的核心能力进阶22(一)深层语境分析与知识融合强化语言理解应用.22(二)精确内容生成与增强搜索的融合23(三)符号逻辑与神经网络的融合提升25(四)上下文记忆能力的增强26(五)更为可靠的内容安全与留能应答机制27第四章大语言模型创新应用形态智能体28(一)智能体(A1.Agent)281.智能体正成为大模型重要研发方向282.大模型能力为A1.Agent带来全面能力提升29(二)典型A1.Agent案例321.R
3、oboAgcnt:通用机器人智能体的开创性进步322 .Coze:优秀的创新型A1.Agen1.平台333 .Auto-GPT:推动自主A1.项目完成的新范例344 .AmazonBedrockAgents:企业级A1.应用的加速器.345 .文心智能体平台:革命性的零代码智能体构建平台356 .腾讯元器:A1.Agent的智慧化体验357 .NVIDIAVoyager:引导学习的MineCraf1.智能体368 .MetaGPT:多智能体协作的元编程平台36第五章大语言模型应用发展趋势37(一)大模型将更加注重多模态数据融合37(二)大模型将提升自适应和迁移学习能力39(三)采用可解释性冕法
4、提高模型透明度40(四)垂直大模型产品研发需结合行业深度定制41(五)大模型发展需妥善处理隐私保护与数据安全问题43第一章大语言模型发展基石(一)软硬协同持续推动大模型能力提升1 .大模型发展对算力需求成井喷式增长大规模的训练和推理需要强大的高性能算力供应,高端AI芯片是大模型高效训练和应用落地的核心,是决定大模型发展能力高低的关键。人工智能大模型参数规模和训练数据量巨大,需千卡以上A1.芯片构成的服务器集群支撑,据测算,在IO天内训练1000亿参数规模、IPB训练数据集,约需1.08w个英伟达A1.OoGPU,因大模型对高端A1.芯片需求激增及高端芯片进口供应受限,英伟达等高端芯片已供不应求
5、。据金融时报估算,我国企业对英伟达A800、H800两款GPU产品的需求达50亿美元。GPT-3的训练使用了128台英伟达A100服务器(练34天)对应640P算力,而GPT-4的训练使用了3125台英伟达A100服务器(练90100天)对应I5625P算力。GPT-4模型的参数规模为1.9万亿,约为GPT-3的10倍,其用于训练的GPU数量增加J近24倍(且不考虑模型训练时间的增长)而目前正在开发的GPT-5模型预计参数量也将是T-4模型的10倍以上,达到10万亿级别,这将极大地提升大模型训练的算力需求。同时,各应用单位、科研院所科技企业的自研模型需求逐步增长,据工业和信息化部赛迪研究院发布
6、的研究报告预测,到2024年年底我国将有5%8%的企业大模型参数从千亿级跃升至万亿级,算力需求增速会达到320%o此外,未来在A1.算力基础设施领域,将有越来越多的厂商采用定制化算力解决方案。在摩尔定律放缓的大背景之下,以往依靠摩尔定律推动着性能效益提升的途径越来越难以为继,要想得到最佳的计算性能,必须依靠针对特定应用和数据集合的体系架构。特别是在A1.大模型领域,不同厂商均有着不同的差异化需求,越来越多公司发现,体适用的解决方案不再能满足其计算需求。为把每颗芯片的性能、效率都发挥到极致,做到最佳优化,需要根据算法模型、工作负载等进行针对性优化。2 .AI芯片自研和算力优化成为应对算力需求的重
7、要手段算力芯片是大模型的算力“发动机”,拥有算力资源的企业具备更强的竞争力,强大的算力资源可以加速模型训练、提升市场响应速度,强力支撑更复杂、更深层次的模型训练,从而提高模型的预测精度和整体性能。在大模型的高算力需求推动下,大厂加强A1.芯片研发力度,持续优化大语言模型所用的IranSfOrmer架构。如,谷歌为其最新款的PiXC1.手机装上了自研TCnSorG3芯片,让用户可以在手机端解锁生成式A1.应用。微软宣布推出两款自研芯片Maia100和Cobak1.()0。Maia100用于加速AI计算任务,帮助人工智能系统更快处理执行识别语音和图像等任务。亚马逊推出专为训练人工智能系统而设计的第
8、二代AI芯片Trainium2,以及通用Graviton4处理器,TrainiUm2的性能是第一代TrainiUm的四倍,能源效率是其前身的两倍,相当于每个芯片可提供65Oterafk)PS(每秒执行万亿次浮点运算)的计算能力,由10万个TrainiUm芯片组成的集群可以在数周内训练出3000亿参数的大语言模型。亚马逊以40亿美金投资大模型创企AnthroPiC后,要求其使用亚马逊自研A1.芯片来构建、训练和部署大模型。OPenA1.也表示正尝试自研AI芯片,并已开始评估潜在的收购目标。近年来,我国A1.芯片技术能力不断提升,涌现出百度昆仑芯、海思昇腾、寒武纪、燧原科技、壁仞科技、海光、天数智
9、芯、沐曦、芯动科技、摩尔线程等代表企业,并实现产品商业化。如百度昆仑芯1代A1.芯片于2020年实现量产,已在百度搜索、小度助手、文心大模型推理业务等自有场景实现规模应用,已应用于互联网、工业制造、智慧金融等领域;针对大语言模型训练场景,百度昆仑芯可提供一整套精调的训练策略,其解决方案已通过某能源行业SFT训练模式,客户短期可打造专属行业大模型。3 .计髡、存储、网络协同支持大模型训练大模型的研发训练高度依赖高端芯片、集群及生态,高计算性能、高通信带宽和大显存均是必要能力,计算、存储、网络任一环节出现瓶颈将导致运算速度严重下降。大语言模型的训练和推理受限于芯片通信速度,随着大模型的吞吐量大幅增
10、长,芯片内部、芯片之间形成“存储墙”,其通信速度正成为计算瓶颈。因此,需要计算、存储、网络协,同,提供更好的算力支持。主要包括以下四方面:一是分布式训练技术支撑训练需求。由于大模型的计算量非常大,单个计算节点很难满足训练需求。因此,需要使用分布式训练技术,将模型训练任务分配到多个计算节点上进行并行计算。这要求算力统筹具备高效的分布式训练框架和算法。二是算力管理和调度确保资源充分利用。随着大模型规模的不断扩大,算力管理和调度变得尤为重要。有效的算力管理和调度策略可以确保计算资源的充分利用,避免资源浪费,并提高训练效率。这包括合理的任务分配、负载均衡、资源监控和动态调整等。三是高速的内存和存储有效
11、提升训练效率。大模型在训练过程中需要快速读取和写入大量数据,因此要求具备高速的内存和存储设备。例如,使用DDR4内存和NVMeSSD等高速存储设备可以显著提高训练效率。四是网络连接和通信影响训练速度。在分布式训练中,各个计算节点之间需要高速的网络连接来传输数据和同步梯度信息。因此,网络连接和通信的速度和稳定性对大模型的训练效率具有重要影响。目前,业界在计算、存储、网络的协同方面已开展有效工作。在分布式训练中,GPU在机间和机内不断地进行通信,利用IB、RoCE等高性能网络为机间通信提供高吞吐、低时延的服务,同时还需要对服务器的内部网络连接,以及集群网络中的通信拓扑进行专门设计,以满足大模型训练
12、对通信的要求。英伟达GPU彼此之间的数据传输速率高达600GBs,通过8个或16个GPU组成一个服务器主机,可以较好地实现高速数据传输,以支撑大规模的模型训练。百度智能云与NVIDIA共同建成大规模高性能GPU/IB集群,经过专门设计和优化,发挥集群的整体算力。4 .深度学习框架是大模型研发训练的关键支撑在当前的数字科技领域,算力的发展已经达到了万卡级别的庞大规模,即单体智算集群拥有上万个GPU计算节点。这种前所未有的强大算力为深度学习等复杂计算任务提供了坚实的算力支撑。而在训练过程中,高效的深度学习框架则扮演着至关重要的角色,不仅提供了筒洁易用的编程接口,还能够在万卡集群上高效地分配和管理计
13、算资源,确保大模型训练的稳定性和效率。如,百度飞桨(PaddIePaddIe)集核心框架、基础模型库、端到端开发套件、丰富的工具组件于一体,实现动静统一的框架设计,兼顾科研和产业需求,在开发便捷的深度学习框架、大规模分布式训练、高性能推理引擎、产业级模型库等技术上具备优势。在硬件适配方而,飞桨结合大模型适配需求,全面升级硬件适配方案,更好地支持硬件厂商灵活定制、软硬协同深度优化,通过端到端自适应混合并行训练技术以及压缩、推理、服务部署的协同优化,通过支持硬件算子的编译和多Stream并行计算,减少等待和阻塞,实现了自定义融合策略和加速算子,支持硬件厂商灵活接入不同颗粒度算子。K桨深度学习平台提
14、供了高效的分布式训练架构,在万卡集群上,长桨能够支持超大规模的模型训练任务,实现大量计算节点之间的高效协同,更好地完成大模型的训练任务,这不仅提高了训练效率,而且降低了训练成本。5 .大规模算力集群的创新应用与突破我国骨干厂商积极探索打造高性能算力集群,并通过协同优化、工具支持等实现高效稳定的大模型训练,提高算力使用效率。百度百舸2.0在A1.计算、A1.存储、A1.容器等模块上进行了能力增强和功能丰富,并发布广AI加速套件。A1.加速套件通过存训推体化的方式,对数据的读取和查询、训练、推理进行加速,进一步提升AI作业速度。为了提升集群通信效率,百度发布了弹性RDMA网卡,相比传统专用的RDM
15、A网络,弹性RDMA网络和VPC网络进行了融合,使得用户的使用成本更低,同时通信延时降低了2-3倍。此外,百度在万卡集群的运维和稳定性方面也进行了大量优化工作,如通过自研的集群组网故障管理机制,降低了工程师在容错和故障恢复上的时间成本,优秀的运维能力和稳定性为大模型的训练提供了有力的保障。腾讯云发布新RHCC高性能计算集群,用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群,睇讯团队在同等数据集下,将万亿参数的A1.大模型混元N1.P训练由50天缩短到4天。其自研星脉高性能计算网络和高性能集合通信库TCC1.,具备业界最高的3.2TRDMA通信带宽,在搭载同等数量的GPU情况下,为大模型
16、训练优化40%负载性能,消除多个网络原因导致的训练中断问题。浪潮信息A1.团队在2023年相继研发了OGAI(OpenGcnA1.Infra)大模型智算软件栈、源2.0大模型,从软硬协同层面去持续提升基础大模型的能力,同时通过开放算力发展生态去探索可能突破的场景。OGA1.面向以大模型为核心技术的生成式A1.开发与应用场景,提供从集群系统环境部署到算力调度保障和大模理开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。(二)数据丰富度与质量塑造大模型知识深度与广度1 .大模型对数据数量、质量提出新要求(1)海量高质量数据是大模型泛化涌现能力的基础从行业