《计算机行业AI服务器专题研究.docx》由会员分享,可在线阅读,更多相关《计算机行业AI服务器专题研究.docx(29页珍藏版)》请在优知文库上搜索。
1、计算机行业Al服务器专题研究AI服务器:ChatGPT训练热潮有望带动AI服务器需求ChatGPT:大模型+Transformer架构,带动并行计算需求大厂布局ChatGPT类似产品,或将带来底层算力需求。ChatGPT发布之后,引发了全球范围的关注和讨论,国内各大厂商相继宣布GPT模型开发计划。据各公司官网,2023年2月7日,百度宣布将推出ChatGPT类似产品文心一言,预计今年3月展开内测;2月8日阿里宣布阿里版ChatGPT正在研发中,目前处于内测阶段;2月9日,字节跳动旗下AILab宣布正在开展ChatGPT和AIGC相关研发,未来将为PICO提供技术支持;2月10日,京东旗下言犀人
2、工智能平台推出产业版ChatGPT-ChatJD,我们认为,随着国内互联网厂商陆续开展ChatGPT类似产品研发,GPT大模型训练热潮或将带来底层算力需求快速释放。AI模型对算力的需求主要体现在训练和推理两个层面。当前主流的人工智能算法通常可分为训练和推理两个阶段。据IDC数据,2021年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4%用于模型训练。据IDC预计,到2026年AI推理的负载比例将进一步提升至62.2%。具体来看:1)训练阶段:基于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。对于图像识别、语音识别与自然语言处理等领域的复杂问题,为了获得更准
3、确的人工智能模型,训练阶段常常需要处理大量数据集、做反复的迭代计算,耗费巨大的运算量。2)推理阶段:训I练阶段结束以后,人工智能模型已经建立完毕,已可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),此过程被称为推理阶段。推理阶段对单个任务的计算能力要求不如训练那么大,但是由于训练出来的模型会多次用于推理,因此推理运算的总计算量也相当可观。图表1:中国人工智能服务E工作负载及预测物理同练H:IDC.华标充ChatGPT算力需求场景包括预训练、Finetune及日常运营。从ChatGPT实际应用情况来看,从训练+推理的框架出发,我们可以将ChatGPT的算力需求按场
4、景进一步拆分为预训练、FinetUne及日常运营三个部分:1)预训练:主要通过大量无标注的纯文本数据,训练模型基础语言能力,得到类似GPT-1/2/3这样的基础大模型;2)Finetune:在完成预训练的大模型基础上,进行监督学习、强化学习、迁移学习等二次或多次训练,实现对模型参数量的优化调整;3)日常运营:基于用户输入信息,加载模型参数进行推理计算,并实现最终结果的反馈输出。图衰2: ChatGPT算力需求研究框架GPT-1GPT-2SFTjI 青学习RM 奖励摸 5!ft 推理计鼻PpO强化学习迂秒学习信息文.互IMI来源:OpenAI,华鑫研完预训练阶段:单次算力需求取决于模型参数量,最
5、高可达3640PFIop/s-dayChatGPT基于Transformer架构,进行语言模型预训练。GPT模型之所以能够高效地完成大规模参数计算,我们认为离不开TranSfOrmer架构的加持。拆解TranSfOrmer架构来看,核心是由编码模块和解码模块构成,而GPT模型只用到了解码模块。拆解模块来看,大致分为三层:前馈神经网络层、编码/解码自注意力机制层(Self-Attention自注意力机制掩码层,其中:1)注意力机制层主要作用在于计算某个单词对于全部单词的权重(即Attention),从而能够更好地去学习所有输入之间的关系,实现对文本内在关系的理解和更大规模的并行计算;2)前馈神经
6、网络提供了对数据信息的高效存储及检索;3)掩码层在这一过程中帮助模型屏蔽位于计算位置右侧尚未出现的单词。因此,相较于前代深度学习架构RNN,Transformer架构可以实现更大规模的并行计算,大大提升了计算效率ffi3:TranSfOnner解码模块拆解THETRANSFORMER解码模块9前情神经网络I:编解码自注意力机制III:自注意力机制持码I、InPUlrobotmustobey:CSDN.单一大模型路线下,需要完成大规模参数计算。以GPT-3模型为例,随着模型朝更大体量的方向演进,参数量从GPT-3Small的1.25亿个增长到GPT-3175B的1746亿个,一次训练所需的计算量
7、从2.6PFIops-day增至3640PFIops-day与此同时,在不同学习样本(包括小样本、单一样本、零样本)条件下的模型,随着参数量的提升均实现不同幅度的上下文学习能力改善,外在表现为语言准确率的提升。我们认为,随着大模型训练表现出越来越强大的实战能力,未来或将成为NLP训练的主流选择。图表4:不同NLP模型参数量及训练算力对比模型总计算*(PFIop/s-day)总计算量(Flops)泰歙量(百万个)令牌效量(十亿)T5T56mall2.08E+001.80E+20601000T5-Base7.64E+006.60E+202201000T5-Large2.67E+012.31E+21
8、7701000T5-3B1.04E+029.00E+213000IOooT5-11B3.82E+023.30E+22110001000BERT模型BERT-Base1.89E+001.64E+20109250BERT-Large6.16E+005.33E+20355250ROBERTa-Base1.74E+001.50E+211252000ROBERTa-Large4.93E+014.26E+213552000GPT模型GPT-3Small2.60E+002.25E+20125300GPT-3Medium7.42E+006.41E+20356300GPT-3Large1.58E+011.37E
9、+21760300GPT-3XL2.75E+012.38E+211320300GPT-32.7B5.52E+014.77E+212650300GPT-3.7B1.39E+021.20E+226660300GPT-313B2.68E+022.31E+2212850300GPT-3175B3.64E+033.14E+23174600300LanguageModelsareFew-ShotLearners,OpenAI.2020.三5:携着模型参数量增长,不同学习样本模型的冷碎度均有发升AggregatePerformanceAcrossBenchmarks- FeWShot - One Shot8
10、0 - ZmoSbotParameters in LM (BiaiOnS)If来算:LanguageModelsareFew-ShotLearners,OpenAI.2020.推理阶段:预计单月运营算力需求约7034.7PFIop/s-dayChatGPT近一月访问量为8.89亿次。据SimiIarWeb数据,2023年1月以来ChatGPT官网日访问量持续攀升,从1月初的日均千万次级别,到1月底日均两千万次,再到2月中旬的三千万次级别,随着软件效果的广泛传播,用户访问次数愈发频繁。加总近一月(2023/1/17-2023/2/17)ChatGPT官网访问量数据来看,可得ChatGPT月访问量
11、为8.89亿次。三6:ChatGPT官冏日访问量(百万次) Desktop4035302520151050MobileWeb1-11-41-7MO1-131-161-191-221-251-281-312-32-62-92-122-15:SimiIarWeb预计日常运营单月所需算力约7034.7PFIops-dayo日常运营过程中,用户交互带来的数据处理需求同样也是一笔不小的算力开支。据前文,近一个月(2023/1/17-2023/2/17)ChatGPT官网总访问量为8.89亿次。据Fortune杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。基于此,我们测算得202
12、3年1月OPenAl为ChatGPT支付的运营算力成本约889万美元。此外,据Lambda,使用训练一次1746亿参数的GPT-3模型所需花费的算力成本超过460万美元;据OPenAI,训练一次1746亿参数的GPT-3模型需要的算力约为3640PFIops-dayo我们假设单位算力成本固定,测算得ChatGPT单月运营所需算力约7034.7PFIops-dayoffl7:ChatGPT单月运营算力成本测算单月访问量8.89亿次X 单次访问算力成本0.01美元Hf4:SimiIarWeb,Fortune,华明克代冏Finetune阶段:预计ChatGPT单月Finetune的算力需求至少为13
13、50.4PFIops-day模型迭代带来Finetune算力需求。从模型迭代的角度来看,ChatGPT模型并不是静态的,而是需要不断进行Finetune模型调优,以确保模型处于最佳应用状态。这一过程中,一方面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基于用户反馈和PPO策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样会为OpenAI带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。预计ChatGPT单月Finetune算力需求至少为1350.4PFIOPs-day0据IDC预计,2022年中国人工智能服务器负载中,推理和训练的比例分别为58
14、.5%.41.5%o我们假设,ChatGPT对推理和训练的算力需求分布与之保持一致,且已知单月运营需要算力7034.7PFIop/s-day、一次预训练需要算力3640PFIops-dayo基于此,我们进一步假设:1)考虑到AI大模型预训练主要通过巨量数据喂养完成,模型底层架构变化频率不高,故我们假设每月最多进行一次预训练;2)人类反馈机制下,模型需要不断获得人类指导以实现参数调优,以月为单位可能多次进行。由此我们计算得ChatGPT单月Finetune算力成本至少为1350.4PFIOP/s-day。ChatGPT需要的服务器:AI训练型服务器+AI推理型服务器随着计算场景扩展,算力硬件也在
15、发生变化。在传统软件架构下,主要的模式都是CS模式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器处理上亿个重负载请求。边缘计算机本质上是用CES模式取代CS模式,当前的互联网IT架构已经从CS模式,逐步向CDN服务为核心的CES模式转变。但当前的CDN模式比较大的局限性在于缺乏灵活性,不能解决边缘上非结构化数据存储和处理的需求,引入Edge端(边缘端)就是为了解决CS模式下无法处理的业务。而在AI训练场景下,计算量及数据类型的变化导致C-E-S又无法满足集中大算力需求,计算架构回归C-S,并向高效率并行计算演变。SA8:计算架构演变过程PC云计算边壕计算AI训练CS架构C-ES架构cs架构只有收件,没有瓜务从软件到戚务大演贵依时建鼻力分收运行环埼可拄福瓦中心依M从他件划算丈算力臬中资料来琼:CSDN,华泰晴服务器作为