《【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx》由会员分享,可在线阅读,更多相关《【研报】运营商AI先进存力白皮书-2023_市场营销策划_2023年市场研报合集-12月份汇总_do.docx(34页珍藏版)》请在优知文库上搜索。
1、.f i. B BAmixfM 4.1.Il .,X运营商Al先进存力白皮书汇聚产业新动能,共创Al新时代-2023年-二版权声明本白皮书版权属于中国移动通信有限公司研究院、中国联合网络通信集团有限公司、中国人工智能产业发展联盟、华为技术有限公司和中国科学技术大学,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国移动通信有限公司研究院、中国联合网络通信集团有限公司、中国人工智能产业发展联盟、华为技术有限公司和中国科学技术大学”。违反上述声明者,编者将追究其相关法律责任。编写委员会顾问陈国良、周跃峰指导委员会刘景磊、赫罡、魏凯、庞鑫、顾雪军编委陈佳媛、闫哈、童
2、俊杰、李诚、靳震、曹晓峰、箭昊、曹峰、丁志彬、何雨今、王振、王旭东、周宇、杨小林、纪悻、韩茂、蒋海林、钟毅、蔡钊、易恩来、蓝文海、谭华、苟欣、沈荣锋、孙睿、江军航、郭洪星、黄维恩、阮政委、孙晓艺、宋天宇、段芳成、钟昭、宋建嘉主编单位中国移动通信有限公司研究院、中国联合网络通信集团有限公司、中国人工智能产业发展联盟、华为技术有限公司、中国科学技术大学类社会正在跑步进入通用人工智能时代。从AIphaGo到ChatGPT,人工智能领域的里程碑事件不断涌现,GPT-4首次展现极强的语义理解能力、内容生成能力和持续对话能力,这是一个新时代来临的标志。产业界纷纷加强大模型相关领域的研究,并推出一些新产品和
3、新应用,传统信息产业生态正在被重塑。运营商作为ICT基础设施建设的主力军,迎来Al发展的新机遇。从对内网络业务角度看,大模型将会加速运营商网络智能化升级。首先,利用人工智能的分析、策略优化与预测等能力来赋能网元、网络等业务系统,有助于提升电信网络的智能规建、智能运维、智能管控能力。其次,通过人工智能设计套餐,符人工智能嵌入用户流量管理中,有助于提升网络运营、市场营销、客户服务的效率。同时,借助大模型还可能对6G智简网络以及云网融合的研究提供帮助,促进6G技术迅猛发展。从对外政企业务角度看,大模型也将助力运营商赋能干行百业智能化升级。结合运营商的数据优势、算力优势、行业使能经验优势,运营商将成为
4、数字经济智能化的关键一环。一方面,将运营商的大模型能力外溢至行业客户,面向政务、教育、医疗等推出行业大模型新应用,这也是当前运营商重点发力的方向。另一方面,结合运营商算力、网络等资源优势,为大模型创业者和研发机构提供智算服务,做AI淘金时代“卖铲人”。运营商要抓住大模型的发展机遇,首先需要构建领先的Al基础设施,尤其是数据存储能力,也即存力。在大模型场景中,先进数据存力尤为重要。大模型的参数和数据规模都呈指数级增长,对存储的扩展性、稳定性、性能、时延等都提出更高要求。比如一个训练批次前后的数据加载和保存阶段,如果存取性能不足,会导致计算资源(如CPU、GPU等)的浪贽。存力是算力价值的前提和基
5、础,只有数据存得好、算得快、传得稳,整个Al基础设施才能够更好发挥算力的作用。本白皮书重点研究了运营商如何构建Al先进存力,一是分析目前运营商行业Al场景的总体发展态势与应用现状,展望了运营商作为国家数字经济发展引擎的重要作用。二是分析支撑大模型应用的Al基础设施存在的挑战,分析得出Al先进存力是构建领先Al基础设施的关键一环。随着Al与通信产业的深度融合,Al大模型不仅会赋能网络的泛在智能能力,还将助力运营商推动千行百业智能化升级。前行不缀,未来可期。通用人工智能奔涌而来,赋能数字经济的全面智能化升级。运营商引领时代潮流,智算底座将成为千行百业创新变革的重要基石。陈国良中国科学院院士(S;)
6、彳、力二大模型席卷全球的热潮中,人们已经深刻认识到仕人工智能作为经济社会发展中一项革命性技术力量,将驱动全球产业实现巨大飞跃甚至跨越式发展,深刻影响未来世界的竞争格局。通信行业作为信息通信基础设施的建设者和运营者,既为Al的发展提供基础设施支撑,又将会是Al应用落地的先行者。大模型时代,数据决定Al智能的高度。更多的训练数据是Al模型迭代升级的前提,更高的数据质量也决定着大模型训练的效果。国内要发展人工智能,并使这一产业得到高速的发展,一定要重视数据和信息的数字化记录。如今,国内建设了大量的数据中心,算力相对较多,但存力较少,很多高价值的信息都没有被记录下来。作为数据的载体,数据存储成为Al大
7、模型的关键基础设施。构建Al先进存力是构建领先Al基础设施的核心条件之一。大模型的持续创新突破,需要从数据的角度对Al全流程进行优化。首先,数据归集阶段要高效处理多地域、多分支收集PB级多样化的原始数据;其次,在模型训练阶段需要对海量小文件的随机读取以及模型数据集快速保存:最后,在模型推理阶段需要快速检索增量源数据和向量数据。这些挑战都需要创新的Al存储解决方案,比如通过智能数据编织,实现跨系统、跨地域的全局统一数据视图和调度;通过近存计算,卸载部分数据预处理能力,减少数据搬迁,缩短数据准备时间;通过全闪存分布式存储,实现存储节点千万级每秒读写次数(IOpS,Input/OUtPUtPerSe
8、cond)和数百GB/s带宽,提升训练效率;通过向量存储,实现高性能向量检索能力。华为公司在数据存储产业上的大规模投入超过十年,提供专业Al存储支撑大模型蓬勃发展,助力运营商引领新时代。通过与业界专家、客户和伙伴深入交流,中国移动研究院、中国联通、人工智能产业发展联盟、华为和中国科学技术大学联合编写了本白皮书。白皮书详细阐述了Al先进存力对运营商Al先进基础设施的支撑作用,建立了一套综合的评估Al先进存力的特征体系,可有效牵引对人工智能计算中心的科学规划。我相信这是一次非常有意义的探索,将凝聚更多的行业力量共同推进运营商Al产业的发展。凡人微光,汇聚成炬。华为愿与产业各方更加紧密携手努力,汇聚
9、产业力量,共创运营商Al新时代。周跃峰博士华为公司副总裁图目录图/数据模型迭代全生命周期03图24大模型全流程存储需求分析13图3算力中心架构到存力中心架构18图4多业务接口的统一存储逻辑图19图5传统文件系统架构向并行文件系统架构发展21目录CONTENTSOlAl发展概述Ol1.1Al基本概念Ol.2Al发展阶段021.3我国Al大模型发展现状0402运营商是助推Al强劲发展主力军052.1 运营商高度重视Al发展052.2 运营商应用Al的主要方向0903运营商Al存力挑战Ii3.1 Al存力是运营商发力大模型的基础Il3.2 运营商Al存力面临的主要挑战1304Al先进存力发展趋势17
10、4.1 Al先进存力内涵174.2 Al先进存力关键技术1805运营商Al先进存力产业发展建议251参考文献27HAl发展概述ZlI.IAl基本概念工智能(ALArtificialIntelligence)是指通过计算机技术和算法模拟人类智能的一种技术。它可以让计算机像人一样思考和学习,从而实现自主决策的智能化行为。Al已在计算机视觉、智能语音、自然语言处理等应用领域迅速发展,开始像水、电、煤一样赋能于各个行业。Al主要分为分析式Al和生成式AL传统分析式Al主要用于分析式应用,即对输入内容进行分析和判断,生成输出分析结果,如推荐系统、图像识别、智能语音等。在传统的分析式Al时代,只能根据已有
11、的数据进行学习和预测,无法处理新的、未知的情况。生成式Al主要用于内容生成,即使用Al生成新内容,如文本、图片、音频、视频等。生成式Al在学习归纳已有数据的基础上,学习数据产生的模式,并创造数据中不存在的新样本,实现了从数据分析到内容创作的跨越式发展,打开了Al应用新市场,己在文字创作、代码生成、图像生成等多场景实现了应用落地。111.2Al发展阶段占人工智能科学诞生至今60多年的发展历史过日程中,人工智能经历了三次发展高潮,分别是1956到1970年代,1980到1990年代和2000年代至今。1959年ArthurSamuel提出了机器学习,推动人工智能进入第一个发展高潮期。此后70年代末
12、期出现了专家系统,标志着人工智能从理论研究走向实际应用。80年代到90年代随着美国和日本立项支持人工智能研究,人工智能进入第二个发展高潮期,期间人工智能相关的数学模型取得了一系列重大突破。1997年,IBM深蓝战胜了国际象棋世界冠军GarryKasparov,是一个里程碑意义的事件。这个时期的Al训练数据多为结构化数据,存储方式以本地盘存储形式为主。当前人工智能处于第三个发展阶段,2006年加拿大Hinton教授提出了深度学习的概念,极大地发展了人工神经网络算法。随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性。这个时期的Al训练数据多为文本、
13、图片、音频等单模态数据,存储方式为本地盘或存储池形式的外置存储。近年来深度学习发展高潮迭起,Transformer大模型的问世推动深度学习模型参数量从几万跃升至数千亿甚至更大,模型层数从开始的个位数逐步发展到成百上千,原始数据集也达到PB级,为满足大模型对存储的性能和容量需求,外置存储进一步升级为“性能型存储+容量型存储”。大模型实现了更好的泛化能力和更高的性能,正在成为Al发展的新范式。一方面,大模型实现了多场景覆盖、精度限制突破、泛化能力增强和研发能力自动化,成为了Al走向产业化应用的重要途径。另一方面,大模型也改变了Al模型的开发方式,客户无需针对单个场景再开发单独的Al模型,而是由Al
14、大模型厂商开发基础的Lo层模型,由行业IT供应商开发Ll层的行业模型,应用场景IT供应商提供L2层的细分场景模型。基础模型LO科研机构行业模型Ll科研机构+行业伙伴自动驾驶金融风控灵活适配细分场景违约14险3C侦桧流行元素识别标注舞弊动机识别汽车制造巡检辅助设计财务异常tSS鲂织研检门店半定制需求、数据、经验结构化表示沉淀反馈细分场景模型L2科研机构+行业场景化专家沉淀行业Know-how图/数据模型迭代全生命周期:1.3我国Al大模型发展现状臼2020年起,我国的大模型在数量和技术水平日上都有明显提升,涵盖了智能语音、计算机视觉、自然语言处理等多个领域,并在能源、金融、航天、制造、传媒、城市
15、、社科以及影视等领域应用落地。从大模型的布局体系来看,科技大厂在算力层、框架层、模型层、应用层进行了四位一体的全面布局。华为、百度均从芯片到应用进行自主研发的全面布局,如华为的“昇腾芯片+昇思框架+盘古大模型+行业应用”、百度的“昆仑芯+飞桨框架+文心大模型+行业应用”。垂直行业企业和科研院所,主要以大模型算法研发和细分领域应用为主。从大模型参数量看,科技大厂和头部科研机构已上线的大模型参数量普遍在千亿级以上,如阿里通义千问大模型参数在IO万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上,上海人工智能实验室书生浦语大模型参数量在千亿级别。从大模型业界评价看,国内大模型处于百花齐放状态。综