《数据智能白皮书(2024年).docx》由会员分享,可在线阅读,更多相关《数据智能白皮书(2024年).docx(44页珍藏版)》请在优知文库上搜索。
1、一、数据智能综述1(一)数据智能概念探讨1(三)数据智能的历史发展沿革3(三)数据智能的价值和意义5二、数据智能技术8(一)数据智能技术体系概览8(二)数据智能关键技术发展态势9(三)数据智能技术未来展望21三、数据智能应用22(一)数据智能应用发展态势23(二)数据智能应用当前问题26(三)数据智能应用未来展望28四数据智能产业生态34(一)数据智能全景化布局提速,产业体系逐步完善34(二)全球数据智能产业快速发展,规模化效应初显37(三)数据智能产业挑战与机遇并存40五、总结与展望44图目录图I数据和智能间关系的变化1图2数据智能发展脉络3图3数据智能技术体系概览8图4部分生成式大模型发布
2、情况统计17图5数据智能应用体系概览22图6大模型赋能的数据智能应用场景29图7数据智能产业图谱35图8数据智能企业营收分布情况36图9数据智能企业研发人员数域占比情况37表目录表1数据智能应用发展阶段24表2各行业数据智能应用落地的头部场景25一、数据军能综述(一)数据智能概念探讨近年来,智能领域突破“量变引发质变”的临界点,相关技术产业进入剧烈变革期。自1956年人工智能(A1.)概念诞生以来,智能计算领域历经多个阶段的技术方向探索,逐渐收敛在深度学习这一主线,但仍以“决策式人工智能为主要发展领域。近两年,在以TranSformer模型为代表的算法、极致算力支撑下的千亿级模型参数、大规模高
3、质量的训练数据三者共同的作用下,生成式大语言模型的应用效果出现跨越式提升。以GPT4为代表的大模型能实时对图像、音频、视频等多种形式输入进行理解,根据要求完成高效问答、内容生成等多种任务,甚至以前10%的成绩通过美国模拟律师考试,由此“生成式人工智能的发展成为全球焦点,带动人工智能技术产业进入剧烈变革期。伴随智能领域变革,“数据”与“智能”间的发展关系亦呈现两点重要变化,“数据智能”概念亟需明确。如图1所示,数据和智能间的关系变化在近期主要体现为两点:图1数据和智能间关系的变化一是“智能”将成为“数据”价值释放的主要路径,“数据”成为“智能”成效进一步跃迁的胜负手,两者关系由“松耦合”转向“紧
4、耦合”。长期以来,受制于智能技术的局限性,数据仍以非智能化的传统应用方式发挥价值,同时,智能应用效果的明显提升主要由算法驱动,数据仅作为研发过程中的基础一环,两者呈现“松耦台式发展关系。然而,随着生成式大语言模型应用效果的飞跃式提升,人工智能对于生产生活各领域将逐渐不可或缺,进而成为数据价值释放的主要路径;同时,随着算力、算法的演进模式逐渐收敛,数据对智能持续发展的价值愈发突出。由此,助力智能发展将成为数据工作的核心,智能的效果提升也更加依赖数据工程及技术的托底,两者后续将转向“紧耦合”式发展关系。二是智能化技术开始反向助力数据技术发展和非结构化数据应用。一方面,智能化技术开始应用至数据技术领
5、域,在生成式人工智能的赋能下,数据的汇聚技术、存算技术、管理技术、开发技术、安全技术等快速向智能化升级,相应环节的生产效率有望得到大幅提升:另一方面,智能化技术突破传统数据技术面向非结构化数据的能力瓶颈,占据未来数据总量约80%的文档、视频、音频等非结构化数据在生成式人工智能技术的助力下,可被迅速处理和分析,从而实现全形态数据的价值释放。通过以上两点变化可见,数据与智能的融合大势所趋,由此“数据智能”的概念也应运而生。数据智能的概念可以初步概括为,以全形态数据为关键资源,以大数据和人工智能深度融合后的新技术体系为关键手段,以决策式、生成式人工智能和传统数据应用形式协同应用于生产生活各领域为最终
6、目标,由此形成的新兴生产生活方式,以及相应延展出的新技术新产业、新生态。(二)数据智能的历史发展沿革数据和智能是信息技术领域中最受关注的方向,其历史最早可以追溯到计算机的诞生,随后至今的近80年大致可分为三个阶段,总体的技术演进脉络如卜.图所示。:-k-,:a-三b三-三三三*三8_HMHaMMNWWTMaM*vIIiSMBAMfto-XB.bmBmb*MHB4MBTMMB:CIIi接水Iii1.E1.含山用州图2数抠智能发展昧络第一个阶段是技术准备时期(2000年以前),这一阶段主要是由技术驱动的发展阶段。在计算机诞生后的20年内,通过计算能力形成人造智能的人工符能(AD概念,和对数据进行管
7、理和处理的数据库理论均已提出。随后,人工智能经历了从基于规则的推理方法到基于统计的机器学习方法的转变,经典机器学习和早期人工智能理论逐渐形成体系。数据领域则由关系型数据库完成大多数据管理和处理需求,同时诞生了数据仓库理论,指导企业使用数据库等相关工具实现基本的经营管理数据分析。这一阶段中,新兴信息技术不断涌现,为企业、产业、社会带来葩新的生产力,信息技术的重要性为人所熟知。第二个阶段是大数据时期(2000年2020年),这一阶段主要是由数据驱动的发展阶段。隙着互联网时代的全面到来,数据量的爆发式增长、数据类型的多样复杂化、时效性需求的愈发强烈,为数据的处理能力、智能算法的计算效率与效果均带来了
8、新的要求,也使传统机器学习和数据库技术出现瓶颈,催生出以分布式处理为代表的提升数据处理规模和效率大数据技术,及通过多层神经网络学习加深模型效果的深度学习技术,数据和智能各自的技术发展进入快速迭代阶段。这一阶段中,数据量和数据类型的S速增长进一步引领了技术的被动式革新,数据开始作为关键角色登场,受到的重视程度也与日俱增。第三个阶段是融合应用时期(2020年至今),这一阶段是由应用驱动的发展阶段,也是当前所处的发展阶段。近年来,移动互联网的普及和应用推动数据和智能技术的发展更加极致,更多样化和复杂的需求催使技术的发展和应用趋向融合,流批一体、湖仓一体、多模化处理、多模态深度学习等已成为前沿发展方向
9、,数据与智能技术进入相互融合深度应用以促进共同发展的道路。这阶段中,单技术的发展速度逐渐放缓,如何深化对已有技术的应用,充分发挥数据的内蕴价值,将数据和智能更为有机的结合成为更受关注的问题。当下,以大语言模型为代表的生成式人工智能技术实践效果突出,其结合大量场景的应用正在加速落地,围绕其应用落地相关的数据供给、模型优化、场珏发掘、伦理安全等一系列问题成为时下热点。(三)数据智能的价值和意义价值产生的本质,是能量、物质、信息三者内部或之间转换效率的增加。因此价值的具象化,也往往以效率提升的形式体现。数据智能借由传统数据技术加速了信息的收集和处理加工,借由智能化技术提升了信息精炼过程和人机信息传递
10、交互的效率,从结果上实现了信息流动过程中更多环节由人工处理向智能化自动处理的靠拢和转变。人力由于自身生理条件制约效率有限,相较由庞大能量支撑、运转速率高且信息传递顺畅的信息系统,更多的成为人机混合流程中的瓶颈环节,阻碍着串行流程运行的总体效率。随着智能化技术的持续进步,智能化自动处理模块相较人工处理造成的有效信息损失被压缩至相对可控和可接受的范围,使得智能化自动处理替代人工带来的整体效率提升更为可观,为更多人工环节的替换提供了现实基础。在数据智能的实践下,以人为核心的生产环节,或被替代,或受益于技术赋能带来的生产效率提升,或受益于技术效果突破可用性临界点带来的新型生产方式及由此诞生的新生产环节
11、。其中,被替代的是具体环节而小.人员本身,相反每个个人作为独立的信息生产处理系统在综合作用下将得到最大程度的效率提升,进一步的,随着规模效应的放大,将逐渐为企业、产业、社会等各层面带来新的价值和意义。在企业层面,数据智能的实践能提升企业从数据中提取有效信息、精炼转化为知识、最终指导决策这一过程的总体效率,半自动化、自动化决策方式逐步落地。决策效率的提升和决策方式的转变,能够显著提高企业经营的响应速度和市场适应能力,促进业务流程优化和创新。例如,在金融业,帮助企业实现精准营销、风险控制和欺诈检测;在制造业,优化生产流程、预测设备故障、降低运营成本:在外卖、出行等行业,系统自动形成最佳调度方式并直
12、接完成决策,显著提高效率和响应速度。在产业层面,数据智能的实践在直接带动相关技术服务产业发展的同时,还将带来模式创新和对生产关系的重塑,以改善产业链总体产出效率。方面,对于更高效专业化技术服务的持续性需求,将催熟联合运营等新兴产业合作模式。另一方面,生产端个人生产能力的水位上升将带动部分行业领域离散型个体供给模式的进一步兴起。例如,在内容生产行业,大模型的应用使个人生产效率全方位提升,专业分工进一步细化和整合,专业岗位进一步向外包、众包、共创等模式转变,最终提升综合生产效率。在更多行业中类似实践还将孕育者更多旧赛道的革新和新赛道的催生。在社会层面,数据智能的实践能直接提升信息、知识在全社会范围
13、内的流动效率,同时借由对信息的互通和技术的应用强化总体协同性,优化社会资源的配置效率。世界历史上的重要发明如文字、纸张、印刷术、通信、互联网等都分别在各自的历史时期通过对知识传播效率的提升推动了生产力的发展和时代的进步。数据智能当下同样能够提高知识的易获取性以加速其在全社会范围内的流动和配置,并且在此基础上,能帽进一步实现物理空间与数字空间的映射,实现社会运行各方面的高效协同,加速社会资源的合理配置,提升总体运行效率,为全社会带来更多福祉。二、数据智能技术(一)数据智能技术体系概览当前,数据智能技术体系由数据技术及人工智能技术两大部分组成:数据技术旨在从各种类型的数据中快速获取有价值信息.,涵
14、盖数据全生命周期的各环节。人工智能技术是模拟人类智能行为的技术,涵盖基础自然语言处理、计算机视觉、智能推荐等细分技术方向。总体来看,人工智能技术与数据技术相辅相成。在模型训练前的数据准备环节,数据的处理离不开各类高性能存储及大数据平台的支持;在模型训练环节,各类数据平台为人工智能领域各类冲算框架提供了有力的算力支撑;在应用开发环节,数据应用为各类人工智能模型提供了广阔的应用场景及用户数据,助力模型应用效果的进一步提升。W3数据智能技术体系枢览当前,伴随着数据与人工智能技术的不断融合,逐渐演化出“5+3”技术体系。其中,数据技术可以按照数据生命周期分为数据汇聚、数据存储&计算、数据管理、数据开发
15、&应用、数据安全五大部分,人工智能技术可以分为数据准备、模型训练&推理、模型开发&应用三大阶段。在应用需求的驱动下,数据与智能进一步融合创新。一方面,模型的生产需要高质量的数据资源以及更高效的数据底座支撵,另一方面人工智能技术的最新成果能够进一步赋能数据技术,提升数据处理效率和数据应用效果。由此,逐渐衍生出数据供给、多模数据存储与治理、数据智能平台、智能化数据安全技术等一系列新兴技术。(二)数据智能关键技术发展态势1 .数据供给技术赋能模型训练高质量的数据供给在人工智能模型的训练中扮演着至关重要的角色,直接影响模型的最终效果。高质量的数据可以提供准确的训练信号,帮助模型学习到有效的特征和模式,避免过拟合现象,增强模型在面对噪声、异常值和数据分布变化时的稳定性。随着各行业不断深挖数据要素价值,在数据供给领域,通过数据标注、合成数据提供高质量数据已经成为赋能模型训练的两大关键技术。数据标注此指对原始数据进行分类、识别、标记和注释的过程。通过这过程,数据的含义以能够被机器接收处理的形式表征,从而为模型训练提供结构化和有意义的输入,也是提升训练数据质量的关健环节。OPenA1.在GPT4训练过程中就