2023知识图谱大模型实践报告.docx

上传人:王** 文档编号:677689 上传时间:2023-12-09 格式:DOCX 页数:91 大小:2.60MB
下载 相关 举报
2023知识图谱大模型实践报告.docx_第1页
第1页 / 共91页
2023知识图谱大模型实践报告.docx_第2页
第2页 / 共91页
2023知识图谱大模型实践报告.docx_第3页
第3页 / 共91页
2023知识图谱大模型实践报告.docx_第4页
第4页 / 共91页
2023知识图谱大模型实践报告.docx_第5页
第5页 / 共91页
2023知识图谱大模型实践报告.docx_第6页
第6页 / 共91页
2023知识图谱大模型实践报告.docx_第7页
第7页 / 共91页
2023知识图谱大模型实践报告.docx_第8页
第8页 / 共91页
2023知识图谱大模型实践报告.docx_第9页
第9页 / 共91页
2023知识图谱大模型实践报告.docx_第10页
第10页 / 共91页
亲,该文档总共91页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2023知识图谱大模型实践报告.docx》由会员分享,可在线阅读,更多相关《2023知识图谱大模型实践报告.docx(91页珍藏版)》请在优知文库上搜索。

1、L知识图谱的定义与发展历程知识图谱的定义知识图谱与传统知识库相比具有的三大特征以结构化形式描述的知识元素及其联系的集合。囚上个质一本即谱,翳库8叫向翳络知图国家标准及研究报告知识图i普以结构化的形式描述客现世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型.囱学者/机知识图谱KnowledgeGraph-KGFarber:知识图谱是一种资源描述框架(RDF)图,可用于描述任何基于图的知识库.谷歌:知识图谱是一个知根库,其使用语义检索从多种

2、来源收集信息,以提高Google搜索的质量。维基百科:对事知口数字的组合,谷歌将其用于为搜索提供了上下文意义.谷歌于2012年推出,使用维基百科、维基数据和其他来源的数据.百度百科:在图书情报界称为知识域可视化或知识领域映射地图,晕显示知识发展进程与结构关系的一系列各稀不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图结构化形式可呈现为有向图结构化的形式高效的检索能力可将概念、实体及其关系结构化组织起来,具有高效检索能力智能化推理能力可从已有知识中挖掘和推理多维的隐含知识11GBTT42131-2022信息技术人工智能知识图谱技术框架)J2中

3、国中文信息学会语言与知识计算专委会,知识图谱发展报告(201813漆桂林,高桓吴天星知识图谙研究进展.情报工程,2017,3:004-025王昊奋,漆桂林.陈华钧.知识图谱:方法,实践与应用)J,自动化博览,2020(1).DOI:CNKI:SUN:ZDBN.0.2020-01-0145L.EhrlingerandW.Wo,Towardsadefinitionofknowledgegraphs,SEMANTiCS(Posters,Demos,5uCCESS),VOL48,pp.1-4t2016.t6https:.7blogggle.,productssarctvitroducinq-knowl

4、edqe-graph-things-ot附1:海外学者在知识图谱领域相关研究1.知识图谱的定义与发展历程Jffl识图谱发展历程Feigenbaum知识工例是出专家系统开始广泛研究与应用1977TimBernersLee提出语义网概念,是后续知识图谱的基础1998Ggle正式提出知识图谱(KnowledgeGraph,KG)概念同年,Wikidata项目启动OPenKG组织成立201220151984DouglasLenat1968Quillian,建立CyC知识库语义网络提出最早的表达人类知识2002首届国际语义网大会1965普莱斯引文网络分析(ISWC)召开,该会议延续至今,在国际上具有很高

5、的学术影响力2011SChemaQrg建立首个KG嵌入方法TranSE提出推劫了后续包括图神经网络等KG推理方法飞速发展2022195520提出引文索引的思想TimBernersLee提出IinkedOpenData2006首届CCKS大会召开20162020首个知识图谱国标发布RichPedia作为多模态KG发布代表KGia入新时代W3C将RDF和OWL纳入标准,并在后续不断更新,包括RDF6、SPAQL等逐渐填充进入,形成丰富的语义网技术栈2007DbPecIia知识库建立20T8事理图谱概念提出,强调了KG对事件的顺承、因果等复杂认知能力的建模2.大模型的定义与发展历程一大模型的定义本研

6、究报告中大模型的定义广义上:大模型是指参数数量大、结构复杂的深度学习模型,具备涌现能力、通用能力,并能够处理复杂的下游任务,如自然语言处理、图像识别等.狭义上:A大模型通常是指参数规模在一百亿(IOB)以上,使用大规模的训练数据,具有良好的涌现能力,并在各种任务上达到较高性能水平的模型闵权威论文中大模型的定义大色皿一独能魁b理氏0和文Wft人,并生应文本的大短(名态横空.主通应用十财话系院文木袖崛机城事法一同大七组也妣沙2型fJM.FwndWMMc&l).仪4M1也益十r泛的魏敷抠.Lfl常采年大短世白雌学习的方法,IA时版齐.膝遣造曲.源卜源任务.E大i又秒大语言模&LlM1LwelJirm

7、MiMfcIl包含敷白3逾干亿个参数.并HRX源Gl泣.PI大模型与传统模型相比具有三大特征具有通用性C过提示、微调适应广泛的下游任务具有涌现能力在特定任务上,随着模型规模提升模型性能突然出现显著提升参数规模庞大参数规模不少于十亿(1B),严格意义上需超过一百亿(IOB)注:本砂究报告所提及的大模里不仅ESB十大E台悔为.11JfMtAI.t*-4TLLrk*lKctxrt.IrXiuHLIul7742WKyUKCnlaUJ.AKtfvcy,LMWLMlly隘必“工VynInr3K0iHEVid(KNncOLrtuInUSudkkknfhurdii,Mkk.rYiv7lf)i177.2.大模型

8、的定义与发展历程大模型的发展历程AleXNet为代表的新一代模型在规模和性能上超越传统方法Google提出TranSformer架构,奠定了大模型预训练算法架构的基础OPenAl公司推出GPT-2,模型参数规模15亿,DeCoder技术路线优势显现RLHF算法被提出搭载GPT3.5的ChatGPT正式发布中国发布的10亿以上参数大模型超过79个,百模大战态势初步形成2005年2013年2017年2018年2020年2022年8月2023年3月2023年7月2019年2022年3月2022年11月2023年5月CNN为他的传统神经网络模型占主导地自然语言处理模型Word2Vec位 OPenAI发

9、布GPT-I(Decoder) GoogJe发布BERT(Encoder) 预训练大模型成为自然语言处理领域的主流国家人工智能标准化总体组下设立大模型标准化专题组,启动标准编制工作GPT4IE发布,包含1.8万亿参数,采用混合专家模型百度发布文心一言,2然OPenAl公司推出GPT-3/疑:规模1750之三零样本学习任务上实现了巨大性能提升微软发布BEiT-代到来国内大模型研发热潮涌现生成式人工智能服务管理暂行办法公布L3知识图谱落地面临的瓶颈语料数据标注效率低、主观性强4.本体构建难度大2.知识抽取质量,难以保证知三三51则的构建仍主要fi三l.主观性强,导致可移植性差和误差传播,使得知识抽

10、取质量难以保证Eh3.语义理解和自然语言处理难度大知识图谱在面对自然语言中的语义歧义、上下文理解、语言常识推理等问题时,仍缺乏有效的解决办法语料数据标注仍大量依靠人工,存在标注效率低、主观性强等问题本体构建对领域专业知识和构建经验要求高,实体与关系的标识和对齐、本体扩展和更新、本体评估和质控、不同本体融合等方面仍面I施技术拟做5.知识通用性不足企业级知识图谱平台及其知识内容具有较强的行业属性和领域专业性,通用性和迁移泛化能力尚有不足,跨行业、跨领域规模化应用有待提升6知识完备性不足企业级知识图谱构建中通常面临领域边界限制、企业内数据规模有限、数据中知识稀疏等问题,导致其知识完备性不足4大模型落

11、地面临的瓶颈1.训维大模型的成本局大模型的训练和优化总工输易窃源和海量的数据资源,涉及高性能硬件设备、强大的分布式计算能力、数据治理与融合等,投入成本巨大2.训练数据的规模和质量不足面向特定领域、多应用场景的高质量中文语料规模和质量不足5.输出的安全性不足IIIll大模型的开放性导致其存在信息泄露、数据攻击的风险.影响输出结果的鲁棒性和安全性3 .训练过程的可控性差大模型的黑盒问题使傅履过通很难得到合理的解释和有效的控制,增加了大模型优化的难度,并限制了其在部分领域的应用4 .输出的可信度不足大模型的输出结果就)瞳推理而生成,具有随机性和不稳定性,导致其正确性的验证难度大,难以保证结果的准确可

12、信6.知识更新的实时性不足大模型训练薪幽7获取新知识的周期较长,且成本较高,导致其数据更新的滞后和知识时效性的不足7领域知识的覆盖率不足GPT等大模型对各领域专业知识的覆盖仍不足,对专业问题的回答尚无法令人满意8.社会和伦理问题大模型的输出可能存在与社会和伦理要求相悖的内容,如:生成内容消极、负面,具有破坏性等附1:知识图谱领域国内外学者及相关研究知识图谱国内外研究学者:0GerhardWeikum,德国萨尔布吕肯IIaX-PlanGk信息学研究所。TomM.MitGhell,卡内基梅隆大学计算机科学学院最高级别E.Fredkin讲席教授。IanHorrock8,英国牛津大学计算机专业教授。唐

13、志,清华大学教授。李涓子,清华大学教授。漆桂林,东南大学教授。陈华钧,浙江大学教授。王昊奋,同济大学教授。刘崎,电子科技大学教授以知识图谱领域国内外学者的相关研究:0Gerhard,eikum研究知识获取衰示、分布式信息系统、数据库性能优化与自主计;算、信息检索与信息提取等;OTomM.Mitchell的研究涵盖知识表示、知识库构建、机器学习、人工智能,机器人和认知神经科学等;。IanHorrocks的研究海篇述述逻辑、语义网培、知识表达、知识库、网络本体语言等方向;。唐杰研发出研究者社会网绪ArnetMiner系统,唐杰的高引用论文愚2008年在KDD会议上发表的itArnetMiner:extractionandminingofacademicsocialnetworks对其负责的知识工程实验室ArnetMiner系统关侵问题进行讨论,技合来自在线Web数据库的出版物并一出一个概率框架来处理名称歧义问场景名称场景描述大模型知识图潸智能对话通过自然遣言携簟和生成实现人e三机之同的交与3通,份机智篇修KL智能助手.K夫JLB人W.此证需要礴量自Lhit2自然涯言.以及绘扪TuLt卜工内容生成通过自然语言生成或音粒)姓成等技K,限量定的看入或条件,牛成访的文本.代4三X国怕K的内容.山害暮耳笛禽求倒爵G相美

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 测绘

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!