《《计算机研究与发展》论文投稿模板.docx》由会员分享,可在线阅读,更多相关《《计算机研究与发展》论文投稿模板.docx(6页珍藏版)》请在优知文库上搜索。
1、计算机研究与发展JournalofComputerResearchandDevelopmentD0kl0.7544issnl000-1239.2019.*卷(期):起止页.年(注:此模板非完整论文,已做删减。只者格式,勿叁考内容)异质网中基于张量表示的动态离群点检测方法剧目三言刘露I左万利2彭涛-昨著函号宋体,作者和单位的对应关系标注在作者姓名的右上角I(吉林大学计算机科学与技术学院长春13(X)12)I单位小五号,城市若不是省会则写出省份I2(符号计算与知识工程教育部重点实验室(吉林大学)长春130012)I国家、部级、省级实验室注意写依托单位(Iiulu12)小五号,与通信作者的邮箱不同T
2、ensorRepresentationBasedDynamicOutlierDetectionMethodinHeterogeneousNetworkTitle四号1.iuLu1,ZuoWanli12,andPengTao1,2Name五号1 (CollegeofComputerScienceandTechnology,JilitiUniversity,Changchun130()12)IDePan.Correspond小五号2 (KeyLaboratoryofSymbolComputationandKnowledgeEngineering(.JilinUniversity),Ministry
3、ofEducation,Changchun13(X)12)AbstractMiningrichsemanticinformationhiddeninheterogeneousinformationnetworkisanimportanttaskindatamining.Thevalue,datadistributionandgenerationmechanismofoutliersarealldifferentfromthatofnoaldata.Itisofgreatsignificanceofanalyzingitsgenerationmechanismoreveneliminatingo
4、utliers.Outlierdetectioninhomogeneousinformationnetworkhasbeenstudiedandexploredforalongtime.However,fewofthemareaimingatdynamicoutlierdetectioninheterogeneousnetworks.Manyissuesneedtobesettled.Duetothedynamicsoftheheterogeneousinformationnetwork,normaldatamaybecomeoutliersovertime.Thispaperproposes
5、adynamicTensorRepresentationBasedOutlierdetectionmethod,calledTRBOutlier.Itconstructstensorindextreeaccordingtothehighorderdatarepresentedbytensor.Thefeaturesareaddedtodirectitemsetandindirectitemsetrespectivelywhensearchingthetensorindextree.Meanwhile,wedescribeaclusteringmethodbasedonthecorrelatio
6、nofshorttextstojudgewhethertheobjectsindatasetschangetheiroriginalclustersandthendetectoutliersdynamically.Thismodelcankeepthesemanticrelationshipinheterogeneousnetworksasmuchaspossibleinthecaseoffullyreducingthetimeandspacecomplexity.Theexperimentalresultsshowthatourproposedmethodcandetectoutliersd
7、ynamicallyinheterogeneousinformationnetworkeffectivelyandefficiently.AbStraCt五号,至少200字,否则影响El索引Keywordsdynamicoutlierdetection;heterogeneousinformationnetwork;tensorrepresentation;tensorindextree;clusteringKCyWOrdS五号,至少5个摘要挖掘隐藏在异质信息网络中丰富的语义信息是数据挖掘的重要任务之一.离群点在值、数据分布、和产生机制上都明显不同于正常数据对象.检测离群点并分析其不同的产生机
8、制,最终消除离群点具有重要的现实意义.目前,针对异质信息网络动态离群点检测的研究工作相对较少,还有很多问题有待解决.由于异质信息网络的动态性,随着时间的变化,正常数据对象也可能转变为离群点.针对异质网络提出一种基于张量表示的动态离群点检测方法,并根据张量表示的高阶数据构建张量索引树.通过搜索张量索引树,将特征加入到直接项集和间接项集中.同时,根据基于短文本相关性的聚类方法来判断数据集中的数据对象是否偏离其原聚簇来收稿日期:2016-03-16;修回日期:2016-04-26西基金项目:国家自然科学基金项目(60903098):吉林省工业技术研究和开发项目(JF2O12cOI62):吉林大学研究
9、生创新基金项目(2015040)ThisworkissupportedbytheNationalNaturalScienceFoundationofChina(60903098).theProjectofJilinProvincialIndustrialTechnologyReSCarChandDCVeIOPmCnt(JF2012c016-2),andtheGradUateInnOVatiOnFundofJilinUniversity(2015040).六号,核实准确完整的法金名称和英文翻译,用英方版本I通侑作者:彭涛(tpeng)动态检测网络中的离群点.该模型能够在充分降低时间和空间复杂度的
10、条件下保留异质网络中的语义信息.实脸结果表明,该方法能够快速有效地进行异质网络环境下的动态离群点检测.摘要五号楷体,300字左右关键词动态离群点检测;异质信息网络;张量表示;张量索引树;聚类I关键词五号楷体,不少于5个中图法分类号TP391I分类法五英离群点检测不论在同质网络中还是在异质网络在本节中,我们主要介绍张量表示方法在异质正文五号宋体I异质信息网络代表一个现实世界的抽象,专注于多种类型的对象以及对象之间的相互关系.异质网络中经常存在许多不同于正常对象的离群点.作为数据挖掘领域的一个重要分支,离群点检测可以预测数据对象行为和发展趋势,具有很重要的现实意义.离群点检测有着广泛的应用,例如,
11、异常天气检测、信用卡欺诈检测、心电图分析网、异常GPS追踪、文本挖掘中异常的主题检测等.提升TLP的主要策略的特点对比如表所示0惨考文献全文顺序标引(含图和表)ITable1FeaturesComparisonoftheMainStrategieswithTLPEnhancing1提升TLP的主要策略的特点对比策略资源使用复杂度性能增益Warped-SliceH51高低低SMK一般高高GPUMaeStro高高高VT一般低低VTB一般低低三线表,表题为中英文,小五号黑体,表的内容尽量用中文,|除变量、名称缩写外。|本文的主要贡献包括4个方面:1)我们提出了一种基于张量表示的异质网络动态离群点检测
12、方法TRBOutIier,通过分析网络中数据变化趋势判断其是否为离群点;2)张量表示方法被应用到异质网络中来处理不同类型的数据,张量索引树的构建解决了数据稀疏性问题,同时保留了数据的语义关系;3)在张量索引树的基础上对网络中出现的短文本进行相关性分析,并依据短文本的相关性对异质网络中的实体进行聚类;4)应用不同数据集的实验结果表明我们提出的离群点检测算法可以有效发现异质网络中存在的动态离群点.1相关工作一级标题小四黑中都发挥着重要的作用.静态离群点和动态离群点检测在不同的背景下也都有着广泛的应用和重要的研究意义.接下来,我们概述已有的部分离群点检测工作以及在不同条件下的应用.关于离群点检测的研
13、究有很多,但大多数都是针对同质信息网络的研究U。四.文献14提出了一种基于密度的局部离群点检测算法.该方法通过引入信息场来发现网络中存在的局部离群点.文献15提出了一种使用后缀树的离群点检测方法.该方法认为离群点稀少,出现的次数也相对较少,比一些周期性出现且出现次数频繁的正常点更加重要.其主要用于处理数值或者字符,因此被应用于同质信息网络.本文提出的基于张量表示的动态离群点检测方法,将网络中的异质数据进行动态分析.不仅解决了数据的稀疏性问题,也很大程度上保留了数据之间的语义关系.该方法可以根据异质数据所在聚簇是否发生变化来判断网络中的数据是否为离群数据,也可以根据离群数据来分析其产生机制并进行
14、相应的处理.虽然存内计算架构在一定程度上缓解了“数据搬运”的瓶颈问题,然而由于传统存内计算建立在易失性存储器介质之上,其物理特性限制导致整个系统泄漏功耗和动态功耗随着处理数据量的增加而急剧增长.近期各种新型非易失性内存介质(non-volatilememorytechnologies,NVMs)正因其区别与传统介质的低漏电率、高密度等一系列优良的特性而受到广泛关注目7.典型的包括相变存储器(phasechangememory,PCRAM),自旋力矩存储器(SPin-transfertorquememory,STT-RAM),赛道型存储器(racetrackmemory,RM)等.其中RM通过将
15、多个比特的数据存储在一条类似磁带的纳米线上,提供了比自旋力矩存储器更高的存储密度,比相变存储器更高的写入寿命,以及接近静态随机存取存储器(StatiCrandomaccessmemory,SRAM)的读写速度如叫名词的英文!展开胆小写,缩写用大写:人名、地名的首字母始回三12异质信息网络中的张表示方法信息网络中的应用,并且将类型的概念引入张量中.2.1基本定义I二级标题五号4对同质网络进行离群点检测时,通常用数值或向量来表示网络中的实体.例如,在异常天气检测中,气温用数值进行记录,1周或1个月的气温值可以存储在1个向量之中.在对文本主题异常检测时,文本中的特征权值通常用向量表示.不论气温还是文本,数值中和向量中存储的都是同一类别的实体,即数值和向量的定义域是相同的.然而,在异质信息网络中存在着不同类型的实体和链接,将所有实体各自表示成向量进行相似或离群的计算往往不能得到满意的结果.因此,在本节中,我们提出了一种张量表示方法来处理异质网络中的实体.将张量矢量化处理很可能引起维数灾难并破坏了原本高维数据之间的结构关系.将张量表示用于异质离群点检测是一种新的尝试.在详细描述离群点检测算法之前,我们先给出一些基本的符号解释和定义.定义1.异质信息网络24.给定一个有向图G=(V,E,A,R).V代表节点集,E代表边集.r表示对象类型映