《基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于知识图谱的热点文章发现算法研究分析计算机科学与技术专业.docx(36页珍藏版)》请在优知文库上搜索。
1、摘要1Abstract2前言3第一章绪论41.1 研究背景及意义41.2 论文主要工作51.3 本文组织结构5第二章相关知识及技术简介72.1 知识图谱简介72.2 Neo4j图形数据库与CyPher简介72.3 网络爬虫介绍82.4 PageRank算法简介92.5 Sigmoid函数简介102.6 本章小结11第三章问题描述与算法设计123.1 问题描述与基本思路123.2 具体算法设计143.2.1 知识图谱构建15322期刊排名爬取16323论文引用网络权重模型的设计163.2.4 作者合作网络权重模型的设计173.2.5 系统运行流程183.3 本章小结19第四章算法实现与结果分析2
2、04.1 算法实现204.2 结果分析244.2.1 系统运行时间分析244.2.2 平均引用次数分析254.2.3 期刊均分分析294.2.4 结果分析总述33第五章总结与展望345.1 本文总结345.2 未来展望34参考文献35错误!未定义书签。摘要论文推荐是一个有趣并且有挑战的研究工作,其目标在于根据用户的需求向用户推荐相关论文。论文推荐研究已经进行了数十年,GoogleScholar等学术搜索引擎可以有效地帮助用户根据输入关键字和约束条件来查找论文,但由于理解用户需求的困难以及发布的快速增长,返回的结果并不总能满足用户的要求。近年来,在论文推荐方面的研究已经很多了。主流方法是根据内容
3、的相关性(包括标题,关键词,摘要或全文)找到与输入关键词最相关的论文。然而,由于总是有大量的论文共享相同的关键词,就使得推荐结果不具有高精度。因此,作为补充,往往可以研究论文之间的引用关系,以期达到提高推荐精度的目的。本文就着眼于研究论文之间的引用关系,以达到推荐出当前的热点文章的目的。所谓热点文章,指的是综合得分较高,具有典型代表性的文章。这个综合得分不仅取决于当年某篇论文被引用的次数以及它引用的论文的得分,还取决于该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力。基于以上想法,我使用DBLP中的DBLP-citation-network-Oct-19文件中所提供的数据构建了
4、一个知识图谱,记录了每篇论文的相关信息(作者、主题、关键词、发表的期刊和发表的年份等),各论文之间的引用关系。基于这个知识图谱,设计了一个基于PageRank的算法来计算各篇论文的综合得分,通过这个综合得分来达到发现热点文章的目的。所推荐出来的热点文章应当在期刊排名、被引用次数、引用论文的得分和作者影响力这几个或者某几个方面具有较好的排名。因此,对于推荐出来的热点文章我在以上几个方面进行验证,并调整算法参数以期整个系统能更加合理。关键词:引文网络;知识图谱;论文推荐;PageRank;热点发现AbstractPaperrecommendationisaninterestingandchalle
5、ngingresearchtask.Itsgoalistorecommendrelevantpaperstousersbasedontheirneeds.Thepaperrecommendationresearchhasbeenconductedfordecades.AcademicsearchenginessuchasGoogleScholarcaneffectivelyhelpusersfindarticlesbasedoninputkeywordsandconstraints.However,duetothedifficultyinunderstandinguserneedsandthe
6、rapidgrowthofpublications,thereturnedresultsarenotalwaysmeettheusersrequirements.Inrecentyears,therearemanystudiesonpaperrecommendation.Themainstreammethodistofindthepaperthatismostrelevanttotheinputkeywordsbasedontherelevanceofthecontent(includingtitle,keywords,abstractorfulltext).However,sincether
7、earealwaysalargenumberofpaperssharingthesamekeywords,therecommendationresultsdonothavehighaccuracy.Therefore,asasupplement,citationsbetweenpapersareoftenstudiedinordertoachievethepurposeofimprovingtheaccuracyofrecommendationresults.Myarticlefocusesonthestudyofcitationsbetweenpapersandthentoachieveth
8、epurposeofrecommendingcurrenthotpapers.Theso-calledhotpapersrefertopaperswithhighcompositescoreandtypicalrepresentativeness.Thiscompositescoreofapaperdependsnotonlyonthenumberofpapersthatciteditintheyearandthescoreofthepapersitcited,butalsoonthepublicationofthepaper,therankingoftheconference,andthei
9、nfluenceoftheauthorswhowrotethispaper.Basedontheaboveideas,IusedthedataprovidedintheDBLP-citation-network-Oct-19fileintheDBLPwebsitetoconstructaknowledgemapwhichrecordedinformationabouteachpaper(authors,topics,keywords,publishedjournals,andpublishedyears,etc.)andcitationsrelationsbetweenpapers.Based
10、onthisknowledgemap,analgorithmbasedonPageRankwasdesignedtocalculatethecompositescoreofeachpaper.Throughthiscompositescore,thepurposeofdiscoveringhotpaperswasachieved.Therecommendedhotpapersshouldhaveagoodrankinginseveralorallaspectssuchastherankingofjournals,thenumberofcitationscited,thescoreoftheci
11、tationofpapersandtheauthor,sinfluence.Therefore,Iverifiedintheaboveaspectsandadjustedthealgorithmparameterssothattheentiresystemcanbemorereasonable.Keywords:Citationnetwork;Knowledgemap;Paperrecommendation;PageRank;Hotpaperdiscovery前言在互联网时代,数据量的爆炸式增长使得有效信息的获取变得越来越复杂和困难,所以,搜索和推荐成为了人们获取信息的主要方式。在各种各样的搜
12、索或者推荐系统中,如何合理组织和处理大量的数据信息是一个基本的问题。基本的数据组织方式模型有三个,分别为层次结构模型,网状结构模型和关系结构模型。其中,关系结构模型被广泛地运用在各种需要进行数据存储的应用中。但是,当涉及到大量数据和多表查询的时候,关系结构模型的查询效率并不能满足需求,在这种情况下,往往采取网状数据结构模型进行数据存储。由于本文数据集具有较复杂的引用关系及较大的数据量,所以我采取了Neo4j图形数据库来进行数据的存储与组织,也就是使用Neo4j图形数据库构建了论文引用信息的知识图谱。解决了数据的存储组织问题,还要解决如何探索数据之间的关系,从而达到利用引文关系及论文信息推荐出当
13、前的热点文章的目的的问题。在此,我考虑当年某篇论文被引用的次数以及它引用的论文的得分,该篇论文所发表的期刊、会议的排名以及写作该篇文章的作者们的影响力等因素,提出了一个综合得分的概念。然而,论文排名和作者排名的双重问题不能单独处理。因为,论文得分的计算依赖于所写作该论文的作者的得分,而论文得分的改变也会使得作者的得分发生改变。因此,最后,我们提出了一种新颖的论文排名算法,它交织论文和作者的排名。并且同时对于推荐结果进行了相应的验证操作,以验证算法的合理性。本文完成的主要工作如下:(1)学习Neo4j数据库的相关知识,利用DBLP的数据完成论文信息及引文网络的知识图谱的构建。(2)学习简单的网络
14、爬虫技术,爬取CCF上的期刊排名,并写入关系数据库中。(3)构建作者合作网络以及论文引用网络,实现基于PageRank的算法计算综合得分。(4)对作者合作网络及论文引用网络进行交织迭代收敛,得到推荐的热点文章,(5)对推荐的结果进行验证,以调整算法设计的参数使得整个推荐系统更加合理精准。第一章绪论首先本章简要介绍了本文的研究背景和意义,紧接着介绍了本文所做的主要工作。最后,对整篇论文的组织结构进行了简要概括。1.1 研究背景及意义论文是各个学术领域的研究人员记录学术研究及研究成果的文章,是进行学术研究探讨学术问题的一种手段,同时也是描述学术研究成果进行学术交流的一种载体。在进行学术研究的时候,
15、研究人员往往先查询学习前人的研究成果,然后对自己已有的想法思路进行进一步的思考,以达到学习或者创新的目的。这样就使得研究人员创作出来的论文拥有一些必要的参考文献。在很多情况下,一个人的思维往往并不够全面,所以很多学术研究在进行的时候往往以团队合作的形式进行,以期达到使这一阶段研究完美的目的。因此,一篇论文往往由几个作者合作来完成。每年,每个具体的学术领域都会有新的论文被发表出来,如何在卷帙浩繁的论文中快速地得到自己想要的论文,这是很有意义的问题。主流方法根据内容的相关性找到与输入关键词最相关的论文。首先用传统的信息检索技术测量相关性,然后用主题模型进行改进。然而,由于总是有大量的论文共享相同的
16、热门话题,所以基于内容的前K推荐结果通常不具有高精度。作为补充,一些其他方法使用论文之间的引用关系进行推荐,这些方法倾向于在推荐结果中推荐引用论文更多的以及评分更高的论文。例如,Winoto等人提出的上下文感知的多维的论文推荐系统,另一种是情境感知引文推荐系统,它通过测量引用文章和论文之间的上下文的相关性进行推荐。以及一种先使用本体作为构建用户配置文件的基础,然后使用本体网络进行分析来协助推荐的推荐系统。论文的引文分数不仅取决于论文的发表频率,还取决于引用论文的论文得分,因此根据论文引用网络,采用RandomWalk等算法计算论文的排序得分。还有一些方法通过将软聚类论文放入兴趣小组或开发多层神经网络概率模型来学习引用论文上下文文义来改进基于论文引用网络的方法。基于学术社交网络的另一种方法,即