人工智能数据集工作介绍-20240429.docx

上传人:王** 文档编号:1326045 上传时间:2024-06-18 格式:DOCX 页数:24 大小:418.72KB
下载 相关 举报
人工智能数据集工作介绍-20240429.docx_第1页
第1页 / 共24页
人工智能数据集工作介绍-20240429.docx_第2页
第2页 / 共24页
人工智能数据集工作介绍-20240429.docx_第3页
第3页 / 共24页
人工智能数据集工作介绍-20240429.docx_第4页
第4页 / 共24页
人工智能数据集工作介绍-20240429.docx_第5页
第5页 / 共24页
人工智能数据集工作介绍-20240429.docx_第6页
第6页 / 共24页
人工智能数据集工作介绍-20240429.docx_第7页
第7页 / 共24页
人工智能数据集工作介绍-20240429.docx_第8页
第8页 / 共24页
人工智能数据集工作介绍-20240429.docx_第9页
第9页 / 共24页
人工智能数据集工作介绍-20240429.docx_第10页
第10页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《人工智能数据集工作介绍-20240429.docx》由会员分享,可在线阅读,更多相关《人工智能数据集工作介绍-20240429.docx(24页珍藏版)》请在优知文库上搜索。

1、大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点QMa中国信通院人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量.高质量、多样化的训练数据集,成为拉开能力差距的关键要素。数量:万级别类型:单一质V:一般数量:类型:千万级单一(9777少7/,1OIJ0/54质量:较高ImageNet(100OW)数量:类型:质量:亿级多样极高ROOTS(1.6T)59种语言(46种自然感言,13种编程语言)I浅层学习时期(-2012)深度学习时期(2012-2018)预训练模型时期(2019-)2022年起f人工智能正在由模型中心”转向数据为中心QMCT中国信通院2022年产学研提出

2、“以数据为中心的人工智能(Data-centricAI),高质量的训练数据集、完备的数据应用策略将会更好的服务于模型的开发与应用。11人工智能领域的权威学者吴恩达,发起了以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。通过添加数据标记.清洗和转换数据、数据缩减、增加数据多样性.持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。吴恩达:80%的高质量数据与20%的模型训练构成了更好的AI模型。2021年举办了首届“以数据为中心的人工智能竞赛,比赛仅允许通过改进数据来提升模型的性能。80%20%PREPACTIONSou

3、rceandpreparehighqualityingredientsCookamealSourceandpreparehighqualitydataTrainamodel80%的高质量数据与20%的模型训练构成了更好的Al模型。李飞飞团队:实现可信AI,数据的设计、完善、质量评估是关键iniclligcncc网IMTAdvances,challengesandopportunitiesincreatingdatafortrustworthyAlWeixin1.iang1,GirmawAbebeTadesse2,DanielHo,Fei-Fei1.i,MateiZaharia,CeZhang4

4、andJamesZou三三数据集贯穿于大模型全生命周期,输出高质量数据集CftICT中国信通院公开获取管理节点获取节点获数据质量管理-FPft-.1数据训练工程数据标注PrOmPt工程数据过滤数据合理分布和配、分批训练第1批:百科1+书籍1+行业l+第2批:网页2+书籍2+期刊2+行业2+.第n批:百科n+书籍n+期刊n+行业n+.标注平台PromPt期辅助撰写1任务管理高阶撰写低质过滤I有毒过滤I规则清洗模型清洗深度过滤内容分类规则过滤分类器毒性评估内容分类预训练数据集预训练SFT数据集随抽检多人可视PromPt数据集专家标注行业数据集数据清洗微调激发Rank标注微调!lS7t楫型清洗深度过

5、滤内容分类预训练大模型微调大模型通用大模型R1.HF行业大模型数据质量提升数据质量评估数据毒性评估数据数量评估数据分布评估数据内容评估优化优化优化优化我国Al数据发展仍落后美国,处于全面追赶的地位CAlCT中国信通院与美国相比,我国AI数据发展在数据集数量、数据集质量、数据发展顶层设计、Al数据产业链和生态服务四个方面仍落后于美国。中文数据集数量不足全球流量靠前的100o万个网站中,网站语言为中文的仅占1.4%,远低于英语接近60%的水平。全球最大的人工智能开源社区HUggingfaCe已发布开源数据集超过5万个,其中中文数据集仅有150多个,CC中的中文只占4%,且大部分是励卜网页。Al数据

6、集质量低现有公开数据集与大模型预训练需求不匹配,多数无法直接使用缺乏对高质量数据集的定义和规范要求数据质量评估方法和体系缺失数据治理技术发展尚不完善AI数据发展顶层设计不完善打造开放数据资源、布局公共数据集一直是美方政策布局的重点。美国家人工智能研究和发展战略计划中,提出将“开发用于人工智能训练及测试的公共数据集和环境O我国目前尚缺乏国家层面推动公共数据集建设的顶层设计,目前仅有北京、上海两地在政策文件中明确提出了要建设高质量数据集。Al数据产业链和生态服务不成熟数据毒性检测、数据偏见检测、数据优化等技术发展仍不成熟自动化数据治理、数据标注、数据合成、数据质量评估、数据纠偏等工具平台缺失统一的

7、数据治理标准、数据服务生态协同和调度机制缺失。Al数据之困,美国商务部就开放数据资产寻求公众建议CACT中国信通院核心征询问题2024年4月17日,美国商务部官网发布人工智能和开放政府数据资产信息征集请求,向行业专家、研究人员.民间社会组织等公众成员征询有关开放数据资产发展的宝贵见解,旨在了解如何改进商务部开放数据资产的创建、策划和分发方式,以促进生成性人工智能等人工智能技术的发展和进步。FEDERA1.REGISTERTheDailyournaloftheUnitedStatesCovefnmeotNobceAlandOpenGovernmentDataAssetsRequestforInf

8、ormation三ACTION:NotkvlmpiratIuCiafo11ntion.SUMMARY:*11*VS.1.mrtwMofCOtmBeNecotiimitudtahndiCrflrexy.dJnmombon.andtheFeSPomiUeIUeanddwemuMtoalPUbtiCm.CiTMXlJyar9MitAotts.andotherInrmbfecibcIMbIir口Otttbtd5vNnrwtUlrr4h*QpmbtaMXtSandbtdwauiMhofiGndMR.DATES:0t,一Cccntneoesmustbr9mhvdoCrbeforeJuly2024.0tMM

9、NOsfrwvatoaOMM:Comm*Bmfbforf*vd9t,2W4CoflwnenetClose-M024DocwwMytt;DocwwMCItBUOfISftFR27411Ngr立,4i3Gao1、数据传播标准:格式、元数据和文档、元数据标准方面原始数据与派生数据的不同等;2.数据可访问性和检索:直观易用的数据门户、清晰的标签和易读格式、用户对其数据的需求等;3、合作伙伴参与:行业和学术利益相关者与政府合作方式、潜在合作领域等;4、数据完整性和质量:增强公共数据完整性和准确性最佳实践方式、真实性偏见、隐私、公平性和道德等相关挑战的应对方式、数据来源和处理方法的透明度等;5、数据伦理:

10、清晰的法律和道德指导方针、识别和减轻人工智能算法偏见的政策等。大模型高质量数据面临新需求和新挑战,亟需工作新思路CAICT中国信通院1.一F发展需求AJI高质量高质量数据能够高模型精:度与可解释性,减少训练时;长大规模独立熠加训练数据量、模型参数规模或者延长模型训练时间,提出I糜效果j全维度丰富的数据能够提高模型:化能力I:Data-centricAl模型相对固定,通过提升数据的质量和数量,来提升训练效果中文语料本身供给不足开放数据生态不完善质量缺少文献、代码等高质数据公开数据与模型训练不匹配供需数据资源流通规则不健全数据资源对接生态链缺位生态缺少共性关键技术和工具缺乏协同调度和保障机制重点工

11、作顶层支撑成立人工智能数据工作专班,高效推进大模型数据工作标准评测搭建人工智能数据集标准;体系,构建方升大模型1基准测试数据集和体系质量研究构建人工智能数据集质量1评估体系,搭建质量评估I平台I生态合作I依托中国人工智能产业发展联盟数据委员会,开展人工智能数据服务产业链!I图谱编制,举办人工智能!-v-rr-W-RJF-JJCrr-rvrr*-w*-三l工作一:顶层支撑一支撑国家部委开展顶层设计和政策研究SIa中国信通院为深入贯彻习近平总书记的指示精神,落实国家关于人工智能发展的部署要求,加快建设人工智能高质量数据集,开展系列针对国家发改委、国家数据局等主管机构支撑工作,以及与地方数据局.促进

12、人工智能高水平自立自强,数据集团、数交所协同工作。着力破解AI中文数据集数量不足.质量不高.数据产业链和生态服务不成熟.Al数据治理基础菌弱等的瓶颈制约问题着力形成“数据算力-模型协同发展的合力,推动形成飞轮效应,为通用大模型和行业大模型训练和创新迭代提供有效数据供给着力推动人工智能数据高质量发展的制度创新.模式创新.场景创新、业态创新,形成央地协同、政产学研用协同的良性发展格局主要任务1.牵头支撑人工智能数据集政策研究.顶层规划。定期开展成果报送,奉头组织专班开展工作;2、组织专家研讨论证,参与推动分级分类.质量评估等标准制定;3、组织产业和企业调研,支撑开展全国数据标注产业发展情况调研和政

13、策研究;工作二:标准体系一构建人工智能数据集标准体系V1.OCAlCT中国信通院面向模型数据全生命周期Al数据集标准体系V1.o规范数据集全流程,形成优质高质量的数据产品和完备的Al数据集管理体系,更好服务于模型的开发与应用。人工智能高质量数据集标准体系具体包括A基础共性、B关键技术、C工具平台、D质量控制、E工程开发、F产品服务、G行业应用,、H安全伦理等八大部分A术定语义A础共性A通评C用估G行业应用EA开发管理能力FA%0i只构建FB知识计算FDRAG检索增强EB交付实瓶能力FC知识管理D质般控制CEH平台B关键技术DA分级分DB质量评(故IDCJX1CF数据管理CB网|用#cC运营服务ICD开源共享BA数据合殖fBB自动桶王支BE数据采!出与处芟KBF数据版本控制BC多模02合BG分布式存储与高效访问BD

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 人工智能

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!