AIGC对光通信行业的影响分析.docx

上传人:王** 文档编号:1629989 上传时间:2024-11-25 格式:DOCX 页数:7 大小:17.26KB
下载 相关 举报
AIGC对光通信行业的影响分析.docx_第1页
第1页 / 共7页
AIGC对光通信行业的影响分析.docx_第2页
第2页 / 共7页
AIGC对光通信行业的影响分析.docx_第3页
第3页 / 共7页
AIGC对光通信行业的影响分析.docx_第4页
第4页 / 共7页
AIGC对光通信行业的影响分析.docx_第5页
第5页 / 共7页
AIGC对光通信行业的影响分析.docx_第6页
第6页 / 共7页
AIGC对光通信行业的影响分析.docx_第7页
第7页 / 共7页
亲,该文档总共7页,全部预览完了,如果喜欢就下载吧!
资源描述

《AIGC对光通信行业的影响分析.docx》由会员分享,可在线阅读,更多相关《AIGC对光通信行业的影响分析.docx(7页珍藏版)》请在优知文库上搜索。

1、AIGC对光通信行业的影响分析1.0行业背景:大模型驱动算力需求本轮A1.浪潮由ChatGPT掀起,并引发中外科技企业展开对大语言模型及生成式A1.的追逐和对算力的军备竞赛。无论是传统互联网企业还是新进入者都在加大算力投资,积极推出大模型。我们认为多模态大模型与应用生态圈将成为2024年生成式A1.的关键词,生成式A1.依然处于行业发展的初期,多模态大模型训练与推理需求双驱动加速算力基础设施建设。多模态大模型,A1.感知能力更加丰富11月6日,OpenAI公布GPT-4Turbo,平台提供多模态功能,包括视觉、图像创造(DA1.1.E3)和文本转语音(TTS)12月7号,谷歌发布A1.多模态模

2、型Gemini1.0。Gemini1.0根据不同尺寸进行T优化,分别是U1.traPro和Nano.GeminiU1.tra适用于高度复杂的任务,GeminiPro是通用版,而GeminiNano则被用于各种客户端设备。Gemini1.0可以同时理解并识别本文、图形、音频等。伴随着大模型处理数据的类型持续扩展,多模态大模型(1.MMS)成为主流,这使得未来大模型参数与训练集规模将持续扩大。当前多模态系统主要处理文本、图片和语音。伴随行业发展,大模型将可以处理视频、音乐、3D等内容。这也意味着大模型训练算力需求的增长将超预期。应用生态圈趋于成熟,推理算力需求显著增长OpenAI发布了GPTs,让

3、用户们无需代码,结合自己的需求、外部知识和能力创造自定义版本的GhatGPT,满足了用户的定制化需求。此外,OPenA1.在11月底上线GPTStOre,让开发者们能够分享、发布FI己创建GPTsoGPTs和GPTStore的上线满足了客户的特色化需求,有望加速GPT应用生态建设,进一步提高用户黏性。GPTs降低了制作大模型应用门槛,用户无需编程基础,用自然语言就能做出专属GPTS,从而加速大模型向个人用户和垂直行业渗透。GPT应用量的增长,也意味着“杀手级”应用出现的可能性提升。大模型应用所带来的推理算力需求将会超出预期.2.0算力芯片与服务器发展趋势NV1.ink技术、NVSwitch芯片

4、提升芯片互联带宽打破PCIe限制Nv1.ink4代的总带宽可达到900GBs,为PCIe5.0总线带宽的7倍,对比下一代PCIe6.0的256GBs也有显著优势。NVSwitch是英伟达的节点交换架构,通过连接多个NV1.ink,在单节点内和节点间实现实GPU的拓展。第三代NVSwitch能在带点服务器节点中支持8-16个完全链接的GPU,支持以900GBs的速度互联每个GP英伟达H100使用第四代NV1.ink和第三代NVSwitch,具有八个NVIDIAH100TensorCoreGPU的系统具行36TBs的二等分带宽f11450GBs的缩减操作带宽。与上一代相比,这两个数字分别增加了1.

5、5倍和3倍。英伟达摆脱了PCIe在原始带宽、延迟以及缓存一宜性方而的限制。通过NV1.ink和NVSwitch实现多个GPU大规模集群的传输,实现更快和更可拓展的计弊系统。英伟达DGX服务器实现内部GPU全互联以GTCSPRING2022发布的DGXH100为例,H100分为SXM和PCIe两个版本。主流大模型依赖多卡协同,GPU之间的带宽要求较高,Nv1.ink全互联的GPU更加适合大模型应用场景。SXM版本中8张H100芯片通过4张NV1.inkSwitch芯片实现全互联。GPU之间带宽高达900GBs(双向链路25GBs*2*18条=900GBs),相较于PCIE5.0x16双向带宽12

6、8GBs,互联速度得到快速提升。PCIe版本中4张H100芯片通过PC1.eSwitchPEX4:1连接到CPU,2张H100芯片通过Nv1.inkBridge互联。PC1.E机型更加灵活,GPU卡的数量以及PCIE的拓朴可以进行调整。英伟达DGX服务器计算网络设计优化DGXH1.Oo在服务器内部通信构架中可以看出计算网络的重要性。相较于DGXAIO0,DGXH100正在放弃传统的PCIe网卡,转而使用“Cedar”的模块进行GPU与GPU之间的互联DGXH100通过2个Cedar7模组,每个模组包含4个ConnetX-7ICs,通过DenSiIink电缆连接到服务器的对外接口.虽然8张GPU

7、配备了8张400G的网卡ICs,但接1.1.合成成了4个800G接口。优势:1.使用Cedar模块可以提升服务器空间效率,同时有助于服务器内部空气流通。2.Cedar模块直接通过电缆对外连接,有助于降低PCB设计夏杂度与成本。Chip1.et和异构芯片成为行业发展的趋势Chip1.et:AMD早在2011年发布了APU已经是CPU+GPU架构。在2017年,AMD发布的论文中讨论包含CPU、GPU和HBM内存堆栈的APU芯片设计。在2023年6月推出了AMD首个CPU+GPU的数据中心产品。U1.traFusion:M1.UItra采用台积电5nm工艺,由两块M1MaX芯片拼接而成,这样的“组

8、合”使得其晶体管数量达到1140亿颗。使得各项硬件指标翻倍:20核CPU包含16个高性能核心、4个高能效核心;GPU核心数量增至64核:32核神经网络引擎能够带来每秒22万亿次的运算能力;统一内存最高规格达到128GB:内存带宽提升至800GBso这种多芯片(Mu1.ti-die)配置主要靠UItraFusion多晶粒架构,使用2.5D先进封装技术。异构芯片互联的趋势,逐步撰脱了传统SoC的束缚,芯片面积提升不一定意味着成本大幅提升与良品率大幅下降。HBM大幅提升显存带宽,适合大模型应用场景HBM通过采用TSV技术突破内存带宽与容量瓶颈,是新一代的DRAM解决方案。相对于传统内存,HBM是在硅

9、中阶层(Si1.iCOnImerPOSer)上堆登起来并与GPU封装在一起,大幅缩小使用面积,并且HBM距离GPU更近,进一步提升数据传输速度。HBM主要是通过硅通孔(TSV)技术进行芯片堆桎,通过贯通所有芯片层的柱状通道传输信号、指令、电流,以增加吞吐量并克服单一封装内带宽的限制,通过采用TSV技术HBM大幅提高了容量和数据传输速率。与传统内存技术相比,HBM具有更高带宽、更大容量、更低功耗、更小尺寸,HBM突破了内存带宽与容量瓶颈,让更大的模型、更多的参数留在离核心计算更近的地方,从而减少存储解决方案带来的延迟,是新一代的DRAM解决方案。算力+数据读取能力+通信能力缺一不可英伟达2019

10、年以69亿美金收购Me1.1.anox。MeIIanoX为服务器、存储和超融合基础设施提供以太网交换机、芯片和InfiniBand智能互联解决方案在内的大量数据中心产品。收购Me1.IanOX使得英伟达在数通市场业务更加全面,数据中心工作负载将在整个计算,网络和存储堆栈中进行优化,并能实现更高的性能,更高的利用率和更低的运昔成木。BIueFieIdDPU:DPU承接了传统服务器中CPU的工作负担,并融合了智能网卡的网络加速功能,这样更好的释放了CPU资源,更好支撑虚拟机和容器的应用。优势:1.降低服务器功耗,降低用电成本;2.网络通信速度提升。网络架构演进光模块与交换机需求提升大模型参数规模提

11、升,算力集群中互联服务器数量显著提升。二层无收敛的胖树网络架构互联的网卡数量是受限的,超算数据中心的网络架构会向三层无收敛的胖树网络架构演进,这意味着光模块和交换机的需求将进一步提升。英伟达推出的DGXSuperPOD超级计算机,是一套软硬协同的完整解决方案,在满足A1.模型算力的基础上,又能帮助企业快速部署A1.数据中心。DGXSuperPOD采用模块化的设计,支持不同规模大小的设计。以127个DGXH1.Oo为例,整体网络分为计算网络,存储网络,带内管理网络和带外管理网络。3.O光模块光模块的作用是光电信号的转换。光模块内部结构包括光发射组件(TOSA,含激光器芯片)、光接收组件(ROSA

12、,含探测器芯片)、驱动电路、光电接口。在发射端,光模块将设备产生的电信号经驱动芯片处理后,通过激光器转化为功率稔定的调制光信号,使得信息能够在高速光纤中传递:在接收端,光信号经探测器处理后还原为电信号,经前置放大器处理后输出。光芯片是上游产业链核心器件,光器件占比约为73%,电路芯片占比18%。光器件中,光发射组件和光接收组件合计占比约80%。光模块需求测算:英伟达A1.OO推荐配置A100+ConnectX6+QM8700三层网络。第一层架构中,每个节点(A100)有8个接口,每个节点分别连接8个叶交换机。每20个节点组成一个单元(SU,在第一层需要8*SU个叶交换机需要8*SU*20条线缆

13、,需要2*8*SU20个200G光模块。第二层架构中,由于采用无阻塞架构,第二层也采用单条电缆200G的传输速率,线缆数量和第一层相同,需要28*SU*20个200G管模块。所需要的行交换机数量是线缆数量除以叶交换机数量,需要(8*SU*20)(8*SU)个行交换机。但是当叶交换机数量不够多的时候,为了节约在交换机的数量可以在叶和脊之间做两条以上的连接(只要不超过40个接口的限制)。因此当单元数量分别为1/2/4/5个时所需要的仃交换机数量为4/10/20/20个,所需要的光模块数量分别为320/640/1280/1600个,行交换机数量不会同比例提升,但光模块数量会同比例提升。当单元数量达到

14、7个时,需要用到第三层架构,由于无阻塞架构因此第三层架构所需要的线缆数与第二层数相同。140台服务器,共对应140*8=1120片A1.o0,共需要56+56+28=140个交换机(QM8790),需要1120+1120+1120=3360根线缆,需要3360*2=6720个200G光模块,A1.oO与200G光模块对应关系为1120/6720=1:6。光模块需求测算I在算力集群中,光模块需求数量影响因素:网卡型号、交换机型号、单元数量,不同架构所需要的光模块数量有所差异。以A100SUPerPoD为例,英伟达官方推荐网卡为COnneCtX-6(200bs),交换机型号为QM8700(40路2

15、00Gbs传输速率),每个单元包括20个节点,最大支持7个单元组成集群,超过5个单元需要三层交换架构,那么每张A100所需要6个200G光模块。以H100SUPerPoD为例,英伟达官方推荐网卡为COnneCtX-7(400bs),交换机型号为QM9700(64路400bs传输速率),每个单元包括32个节点,最大支持4个单元组成集群,两层交换架构,那么每张H100所需要1个400G和1.5个800G光模块光模块。根据中国人工智能大模型地图研究报告,截至2023年5月,美国已发布100个参数规模10亿以上的大模型,中国发布79个大模型左右。以在OPenA1.为例,他们训练GPT3用了1万张A100显卡,训练GPT4大约3万以上的A100显卡。那我们假设1万张显卡作为入门门槛,2-3万张显卡作为头部大模型厂商存量显卡,考虑到大模型迭代算力需求。我们假设24年英伟达A100和H100的出货量大致在180万-250万张,对应800G光模块数量在400万只左右。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 研究报告 > 信息产业

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!