OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx

上传人:王** 文档编号:1344740 上传时间:2024-06-20 格式:DOCX 页数:35 大小:590.83KB
下载 相关 举报
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第1页
第1页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第2页
第2页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第3页
第3页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第4页
第4页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第5页
第5页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第6页
第6页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第7页
第7页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第8页
第8页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第9页
第9页 / 共35页
OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx_第10页
第10页 / 共35页
亲,该文档总共35页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx》由会员分享,可在线阅读,更多相关《OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx(35页珍藏版)》请在优知文库上搜索。

1、目录1 引言12 GPU资源池化技术的演进23 OriOnX产品概述34 OrionX产品优势45 OrionX软件架构55.1 OrionX的逻辑架构55.2 OrionX的功能组件65.2.1 OrionXControIIer(OC)65.2.2 OrionXServerService(OSS)65.2.3 OrionXClientRuntime(OCRT)75.2.4 OrionXGUI(OG)75.3 OriOnX组件间通信75.3.1 管理平面85.3.2 数据平面86 部署形态106.1 OrionX与容器云平台集成106.2 OrionX与Kubernetes集成116.3 Or

2、ionX与KVM集成116.4 OrionX与VMWare集成127 OrionX应用场景147.1 OrionX支持大模型场景的典型应用147.1.1 通过“化零为整”功能支持训练147.1.2 通过“隔空取物”功能支持训练157.2 OrionX支持小模型场景的典型应用167.2.1 通过“化整为零”功能支持推理167.2.2 通过“隔空取物”功能支持推理177.3 OrionX支持大/小模型场景的典型应用187.3.1 通过“随需应变”功能支持训练/推理187.3.2 通过“任务队列”功能支持训练/推理任务自动排队197.3.3 通过“抢占”功能支持任务抢占资源207.3.4 通过“显存

3、超分”功能支持多任务叠加常驻217.3.5 通过“双类资源池”功能支持物理/虚拟切换227.3.6 通过“热迁移”功能支持Al任务平滑迁移237.3.7 通过“多ArCh”架构可同时支持Al计算与图形渲染257.4 OriOnX支持多元异构算力芯片288 性能测试308.1 测试环境308.2 测试结果319 兼容性列表33图表目录图表1-1全球人工智能市场规模走势图1图表2-1GPU资源池化技术演进图2图表3-10RloNX架构图3图表5-10RIoNX逻辑架构图5图表5-2管理平面逻辑结构图8图表5-3数据平面逻辑结构图9图表6-1。RQNX与容器云平台集成10图表6-2。RIoNX和KU

4、BERNETES集成11图表6-3ORIONX和KVM集成12图表6-50RIC)NX和VMWARE集成13图表7-1通过化零为整功能支持训练15图表7-2通过隔空取物功能支持训练16图表7-3通过化整为零功能支持推理17图表7-4通过隔空取物功能支持推理18图表7-5通过随需应变功能支持训练/推理19图表8-1模型推理测试结果31图表8-2模型训练测试结果321引言当下,全球各国都在加速人工智能布局,将其作为战略性技术之一。作为较早发布人工智能战略的国家,中国政府将人工智能技术视为产业变革的核心力量,人工智能不仅是技术创新,更是推动经济发展、社会进步、行业创新的重要驱动力。“十四五”规划纲要

5、更是将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建,促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新,加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展,促进产业优化升级、生产力整体跃升。德勤在2020上半年发布的全球人工智能发展白皮书预测数据表明:2025年世界人工智能市场将超过6万亿美元;中国人工智能核心产业规模到2020年将增长至1600亿元,带动相关产业规模超过一万亿元。皴确住图表1-1全球人工智能市场规模走势图作为AI市场中的重要组成,以GPU、FPGA等为主的AI加速器市

6、场发展也随之水涨船高。根据IDC中国加速计算市场报告,预计2021年人工智能加速服务器市场规模将达到56.9亿美元,相比2020年增长61.6%,到2025年,中国人工智能加速服务器市场将达到108.6亿美元,其五年复合增长率为25.3%。与此同时,由于缺乏高效经济的Al算力资源池化解决方案,导致绝大部分企业只能独占式地使用昂贵的Al算力资源,带来居高不下的AI算力使用成本;由于缺少对异构算力硬件支持,用户不得不修改Al应用以适应不同厂商的Al算力硬件。这会加剧AI应用开发部署复杂性、提高AI算力投入成本并导致供应商锁定。2GPU资源池化技术的演进GPU资源池化技术从初期的简单虚拟化,到资源池

7、化,经历了四个技术演进阶段。 简单虚拟化。将物理GPU按照2的N次方,切分成多个固定大小的vGP(VirtualGPU,虚拟GPU),每个VGPU的算力和显存相等。实践证明,不同的Al模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足Al模型多样化的需求。 任意虚拟化。将物理GPU按照算力和显存两个维度,自定义切分,获得满足Al应用个性化需求的VGPU。 远程调用。Al应用与物理GPU服务器分离部署,允许通过高性能网络远程调用GPU资源。这样可以实现Al应用与物理GPU资源剥离,Al应用可以部署在私有云的任意位置,只需要网络可达,即可调用GPU资源。 资源池化。形成GPU资

8、源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括VGPU在内的数据中心内的各类资源。简单虚拟化,4幡BlGPUIl定5,橙2的N次方场分为多个VGPU任意虚拟化梅力198U从力IO弄缁个庾技分为多个VGPU远程调用AI应照与务力扁光华il离性展网路AHAiiIfUIMGPU资源池化-GPuavGPu4*ewt.一5|口.图表2-1GPU资源池化技术演进图3OriOnX产品概述趋动科技的Ori。IIX(猎户座)AI算力资源池化解决方案已经实现了上述四个阶段的技术功能,可以为用户提供GP

9、U资源池化的整体解决方案。OrionX帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。OriOnX不但能够帮助用户提高AI算力资源利用率,而且可以极大便利用户Al应用的部署。KtWtfiMS芯片1m*v日堂无人系跳wuc8*CPU16GPU4GPU039GPU0.5*GPUOaGPU任小GPUTcnsorFIow,Pytorch,PaddIePaddIeNVCaffeCUDAjNeUWarejDTK图表3-IOrionX架构图OrionX通过软件定义Al算力,颠覆了原有的Al应用直接调用物理GPU的架构,增加软件层,将AI应用与

10、物理GPU解耦合。AI应用调用逻辑的VGPU,再由OriOnX将vGP需求匹配到具体的物理GPU。OrionX架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。4OriOnX产品优势OrionX通过构建GPU资源池,让企业内的Al用户共享数据中心内所有服务器上的GPU算力。Al开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让应用开发变得更加便捷。OrionX产品有如下优势: 提高利用率O支持将GPU切片为任意大小的VGPU,从而允许多Al负载并行运行,提高物理GPU利用率。o提高GPU综合利用率多达3-10倍,1张卡相当于起到N张卡的效果,真正

11、做到昂贵算力平民化。 高性能O相比于物理GPU,OrionX本地VGPU性能损耗几乎为零,远程VGPU性能损耗小于2%。oVGPU资源隔离,并行用户无资源互扰。 轻松弹性扩展o支持从单台到整个数据中心GPU服务器纳管,轻松实现GPU资源池的横向扩展。O全分布式部署,通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点,实现资源池弹性扩展。 灵活调度o支持Al负载与GPU资源分离部署,更加高效合理地使用GPU资源。oCPU与GPU资源解耦合,两种服务器分开购买、按需升级、灵活调度,有助于最大化数据中心基础设施价值。 全局管理o提供GPU资源管理调度策略。oGPU全局资源池性能监控,为运维

12、人员提供直观的资源利用率等信息。 对Al开发人员友好o-键解决Al开发人员面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题,为算法工程师节省大量宝贵时间。5OrionX软件架构5.1OrionX的逻辑架构一个典型的OrionXGPU资源池的逻辑架构中包含了OrionXController(OC)OrionXServerService(OSS)sOrionXClientRuntime(OCRT)、和OliOnXGUl(OG)等功能组件。OrionX的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各

13、功能组件可以通过多种类型的网络建立连接,从而把数据中心的GPU资源管理起来,形成一种可以被全局共享的计算资源,对Al应用提供可远程访问的、可灵活切分的、可聚合的弹性GPU算力。OrionX的逻辑架构如下图所示。应用OrionXClientRuntimeTensorFIowIPyTorchITtnsorFIowPyTorchOrionXClientRuntime虚拟机/容器J虚拟机/容器Memory/NetworkOrkControlleroCenterOrionXServerServiceOrionXServerServiceOrionXServerServiceGPUGPUNode1GPUG

14、PUGPUNode2CPUCPUNode3图表5-1OriorlX逻辑架构图CUDA(ComputeUnifiedDeViCeArChiteCtlJre)是由NVidia公司定义且公开推广、维护的一种GPU编程接口。从2007年推出之后,经过十几年生态培育,己经成为GPU编程的一个事实标准。大部分流行的Al框架,例如TenSorFIOW、PyTorch.MXNet和PaddIePaddIe都是基于CUDA编程接口开发。OrionX在管理物理GPU之后,通过模拟CUDA标准接口,为各种Al应用提供个与NvidiaCUDASDK接口功能一致的运行环境,从而使得Al应用透明无感知地运行在OrionX

15、GPU资源池之上。OrionX不仅在单服务器上模拟了CUDA标准接口,并且通过分布式部署各功能组件,能够提供分布式的CUDA运行环境。5.2 OrionX的功能组件5.2.1 OrionXControIIer(OC)OrionXController是GPU资源池的核心管理调度模块,其他所有OrionX的功能组件都直接或者间接通过网络连接到OrionXCOntrOlIer,并与其保持信息同步。为了实现OriOnXGPU资源池的统一管理以及资源调度,节点IP地址、物理GPU信息、虚拟GPU信息以及应用任务信息等都会汇总至该组件。一个OrionXGPU资源池可以只部署一个OrionXController0为了提高OrionX的可靠性,可以进行2+1冗余备份。OriOnXCOntrOlIer提供如下功能: 各个分布式功能组件的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 产品手册

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!