《基于数据挖掘的犯罪行为分析.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的犯罪行为分析.docx(46页珍藏版)》请在优知文库上搜索。
1、目录内容摘要II)StraCtII1绪论11.1 课题研究背景及意义11.1.1 课题研究背景11.1.2 课题研究意义11.2 国内外研究现状21.2.1 国外研究现状21.2.2 国内研究现状21.3 论文主要工作与章节安排31.3.1 论文的主要工作31.3.2 论文的章节安排32数据挖掘简介42.1 数据挖掘的概念42.2 数据挖掘技术分类42.3 数据挖掘的过程52.4 数据挖掘应用的领域62.5 行为的关联性分析73.1 关联规则挖掘介绍73.1.1 关联规则的基本概念83.1.2 关联规则的挖掘步骤93.1.3 关联规则挖掘的基本算法93.1.3.1 Apriori算法93.1.
2、3.2 FP树增长算法93.2 犯罪行为关联规则挖掘处理103.3 犯罪行为数据预处理113.3.1 数据清理123.3.2 数据转换134运用关联规则算法对犯罪数据进行研究144.1 MicrosoftSQLSerVer2008挖掘工具简介154.2 SQLServer2008挖掘工具的具体操作步骤154.2.1 运用AnalysisServices中的关联规则功能进行数据挖掘154.2.1.1 数据导入154.2.1.2 查看数据204.2.1.3 运用AnalysisService功能中内置的关联规则算法进行数据挖掘214.4挖掘结果的处理374.4.1 结果分析374.4.2 应用研究
3、结果385总结395.1 本文所做的工作395.2 对未来的展望39参考文献41致谢错误!未定义书签。内容摘要:现今社会,犯罪行为出现了高科技、组织化,公安部门也为此累计了大量的犯罪数据,数据的规模也在不断扩大,在这样的情况下,如何能够从如此海量的犯罪数据中更好的研究了解犯罪规律并且预防、打击犯罪行为,成为了公安研究部门需要攻克的一个难题。本文依据已有的关联规则挖掘,对大量犯罪数据的分析,从而发现在不同的案发区域高发的犯罪类型,或者在不同的时间段该区域高发的犯罪行为中的犯罪规律。并且介绍了对犯罪信息的挖掘,包括对数据进行预处理,关联规则的发现,对挖掘的规则的分析解释,从而对了解犯罪规律有很大的
4、意义,也能够有效预防打击犯罪,维护社会治安和平,为如何进行最佳的警力部署提供了一个很好的决策作用。关键词:数据挖掘;关联规则;犯罪行为分析;犯罪规律Abstract:Intodayssociety,createdhigh-tech,organizedcrime,thepublicsecuritydepartmentalsoaccumulatedalotofcrimestatistics,thescaleofthedatahasbeenexpanded,inthatcase,howcanbetterresearchfromsuchamassivecrimedataaboutthecrimelaw
5、andprevention,tocrackdownoncrime,becomethestudyofthepublicsecuritydepartmentsneedtoovercomeaproblem.Inthispaper,onthebasisoftheexistingassociationrulesmining,theanalysisofalargenumberofcrimedata,thusfoundindifferentareasofthecrimetypehighincidenceofcrime,oratdifferenttimestheareahighincidenceofcrime
6、inthecriminallaw.Andofcrimeinformationminingisintroduced,includingdatapreprocessing,thediscoveryofassociationrules,ontheanalysisoftheminingrulesinterpretation,whichhasagreatsignificancetotheunderstandingofcriminallaw,alsocaneffectivelypreventthecrime,maintainsocialorder,peace,forhowtobestpolicedeplo
7、ymentprovidesaverygooddecisioneffect.Keywords:DataminingAssociationrulesAnalysisofcrimeRegularityofcrime1绪论1.1 课题研究背景及意义1.1.1 课题研究背景随着我国信息技术的不断发展,人们获得信息的方法越来越多样化,于是有大量的信息从社会的各行各业中产出。又由于数据库技术也在不断的完善和普及,我们还能从这样爆炸式增长的数据中获取信息。可是我们应该如何从这些海量的数据中获取有用的信息呢?传统的查询技术并不能解决这一问题。如果能提取出这些数据中的信息、价值,运用到为人类服务中去,因此,对这些
8、海量的历史数据进行探索研究,就成为如要攻克的难题。所以,为了解决如何能有效地管理数据库中的信息,以及如何有效利用这些数据从而发其中隐藏的不为人知的秘密,并发挥这些信息的作用,数据挖掘诞生了。数据挖掘也通常称为KDD(KnowledgeDiscoveryinDatabase)数据库中的只是发现,它能够从海量的数据中提取知识和信息LL在信息高速发展的同时.,犯罪行为的智能化、高科技化的趋势也变得越来越明显,不断变化的犯罪行为对公安部门造成了困扰,也给人民的人身财产安全带来了恐慌。秉着科技兴国的态度,党中央要求公安部门坚持“科技强警”的战略,做好规划,抓好信息化工作,提高战斗力,提高执法效率。对此,
9、如何从历史的大量的犯罪数据中发现犯罪规律从而打击预防犯罪成为了公安部门需要攻克的难题。因此,当前公安部门迫切的需要将数据挖掘技术运用到犯罪分析中,从而提高执法效率,更好的预防犯罪。1.1.2 课题研究意义由于犯罪对于人们来说是一颗不定时炸弹,严重威胁了人身财产安全,让人们心里有着巨大的压力,所以,为了人们能够安居乐业,公安机关对这些犯罪的破获刻不容缓。将数据挖掘技术运用到对犯罪数据的分析中,不仅提高了执法的效率和准确性,也能更好的预防打击犯罪。因此,本文采用了关联规则挖掘来分析犯罪数据中犯罪规律,对案发的区域、时间、作案手段进行分析,从而给公安执法决策提出一个好的建议,比如了解某一区域高发的案
10、件,可以对该区域的该作案手法进行特定的监管,也可以根据发现的规律实施预防措施,比如安装监控、实施警务巡逻等来减少犯罪从而保障人民的生活安全。1.2 国内外研究现状1.2.1 国外研究现状以芝加哥警察署(CPD)为例,为了预防打击犯罪,他们创建了一个大型的数据库,同时他们也在试图创建一个可追踪分析平时行动较为活跃的团伙,并向他们发出警告以防止其进行团伙式暴力犯罪的社交图谱。自2012年,据统计,芝加哥的刑事谋杀案高达500以上,但目前统计,实施此方案后,谋杀率下降了22%。CPD副局长表示,这种工具能够根据其成员的对话交流、平时爱去的场所与他们的爱好来进行分析,并给出较为准确的分析结果。在此能够
11、证明,数据挖掘能够帮助公安部门通过以往的犯罪数据分析犯罪人员的特点,发现犯罪的规律,通过进一步的挖掘,能够为领导提供决策性的建议,也能提供有效的防止犯罪的方法。以前的警情分析需要人力来完成,耗费了大量的人力财力,也很耗费时间,在此情况下,还不一定能找出很好的解决方法,但现在,利用数据挖掘技术,利用计算机能很快的完成以前人工完成的工作,大大的节省了时间,并且提高了公安部门的工作效率,办案能力,从而社会人民的满意度与幸福指数也逐步提高了。1.2.2 国内研究现状我国公安部门在数据挖掘领域上的研究相对国外也较晚,但随着信息化的推动,越来越多的数据累计在了公安部门的数据库中,数据挖掘技术也开始应用于我
12、国的警察部门。通过数据挖掘算法,一些部门己经发现了一些犯罪规律,可以通过数据之间的某些关联,可以尝试进行预测犯罪,指导警务工作,给领导提供决策性的建议。虽然发展得有一段时间,也小有成果,可在相关的文献和成果中,大都只简介了数据挖掘的概念,以及经典的算法,简单描述了一下数据挖掘在公安实战分析中所起的作用。1.3 论文主要工作与章节安排1.3.1 论文的主要工作本文以大量的犯罪信息数据作为研究对象,先解决数据一致性等问题,再利用SQLServer2008建立数据仓库,然后在拟定的算法下对大量的犯罪行为记录进行分析处理,从中发现每类犯罪频发的时间段以及每个区域高发的犯罪行为,这对公安司法部门具有相当
13、重要的现实意义。本文的主要研究内容如下:对大量的犯罪行为数据进行数据预处理,并使用关联规则算法对处理后的数据进行挖掘,从而得到犯罪的规律和趋势。1.3.2 论文的章节安排第一章:对课题的研究背景和意义进行了介绍,并阐述了国内外基于数据挖掘技术在犯罪领域上的研究现状和成果。第二章:主要介绍了数据挖掘技术的概念,挖掘的过程,应用的领域以及数据挖掘的常用算法。第三章:着重介绍了关联规则算法的概念、步骤及分类。第四章:介绍了SQLSerVer2008,以及挖掘模型的建立、对挖掘结果的分析。本章主要介绍如何使用该软件进行挖掘,并对挖掘出来的规则进行合理的分析以及给出处理的建议。第五章:本章是全文的最后一
14、个章节,主要是对前面所做工作的总结和对犯罪行为数据处理研究的展望。2数据挖掘简介近年来,数据库信息量不断增长,信息存储技术也在不断进步,但数据的爆炸式增长已经远远超过了我们的处理数据的能力范围。使用传统的处理方法已经不能从数据中发现有用的、隐藏的信息。所以,为了处理这些海量的信息,数据挖掘技术产生了,并受到了各界的重视且运用到了各个领域。本章重点介绍数据挖掘技术的概念、方法等。2.1 数据挖掘的概念数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是为了从海量的数据中发现其隐藏的规律,从而进行实验和分
15、析。它也是一门结合统计学、数据库、模式识别等各个行业领域知识的交叉性学科。2.2 数据挖掘技术分类随着计算机科学的发展、数据爆炸式增长与积累,推动了数据挖掘技术的快速地发展。数据挖掘技术有以下的分类:(1)分类:意义是找出识别和区分数据类的模型(或函数),而后可以能够使用模型预测类标号位置的对象类。比如,犯罪类型的数据中,年龄可以分为“青年”“中年”“老年”来对犯罪人员的年龄进行分类。分类过程是先通过从己经被分类训练集中获得知识从而获得一个预测的模型,然后再利用这个模型将未被分类的训练集进行分类。分类的常用方法包括决策树分类法、基于规则的分类和贝叶斯分类等。(2)预测:通过分析对象之前和现在的行为或产品的销售情况等来预测对象即将会做出的行为或产品销售的走向。比如,犯罪类型数据中,某男士近十年来常在三月份左右进商店偷取店主I(X)元,所以可以预测在之后他也会做同样的事情。预测技术采用数列作为输入,表示一系列的时间值,然后运用各种能处理数据周期性分析、趋势分析和噪声分析的计算机学习和统计技术来估算这些序列未来的值。预测的常用方法是回归分析。(3)聚类分析:聚类就是将特征相同的数据化为类或簇的过程,在同一类的数据对象具有很高的