2017年第26卷第2期 http://www.c—S—a.org.ca 计算机系统应用 犯罪情报分析中的数据挖掘应用① 陈鹏 ,瞿珂 ,胡啸峰 (中国人民公安大学警务信息工程学院,北京100038) (北京市公安局情报信息中心,北京100034) 摘要:本文基于公安业务中的治安防控原理,构建了面向情报分析和决策指挥的犯罪情报数据挖掘框架.首先, 对案事件数据库进行预处理和空间编码的基础上得到标准化的案件信息数据,随后,利用聚类分析、关联分析和 分类分析中的相关方法可得到治安案件的时空风险、重点人特征和作案手段特征等信息.通过对北京市实际盗窃 案件数据进行挖掘。证明了数据挖掘技术能够很好的应用于犯罪情报的分析. 关键词:情报分析;时空分析;关联分析;数据挖掘 Application of Data Mining in Criminal Intelligence Analysis CHEN Peng ,Qu Ke ,HU Xiao—Feng (Policing Information Engineering Institute,People’S Public Security University of China,Beijing 1 00038,China) (Information Center,Beijing Municipal Public Security Bureau,Beijing 1 00034,China) Abstract:This paper builds a framework about the crime data mining of on intelligence analysis and decision command based on the principle of prevention and control in public security First,we can get the standardized crime information according to the preprocessing of crime database and space encoding.Using hte related methods used in cluster analysis, classification and association analysis,we can get such information as the spatial—temporal risk distribution of crime, targeted people features nad modus-operandi.Finally,by mining the data of actual theft cases in Beijing,it is proved htat data mining methods could play signiifcant role in crime intelligence analysis. Key words:intelligence analysis;space-time analysis;associate analysis;data mining 前言 空规律进行了探索[7,81.然而综合现有的工作来看,目 随着公安信息化的发展,公安部门掌握的各类信 前开展的研究更多的关注于特点方法的应用,缺乏与 息也开始呈现出海量化增长的态势,而这也为公安部 公安业务尤其是公安情报实战化需求的紧密结合,这 门开展犯罪情报分析、探索犯罪活动的基本规律,进 就导致了现有的基于数据挖掘、数据分析方法的犯罪 而为犯罪的精确打击、治安防控与高效的智能指挥决 情报研究仅仅是一种片面的探索,而没有从公安业务 策提供了坚实的基础.近几年,相关学者在犯罪情报 的角度来体系化、整体化的应用数据挖掘工具. 分析领域开展了一系列的工作,利用数据挖掘、数据 基于此,本文针对目前公安部门在治安防控行动 可视化等技术来进行犯罪活动规律的探索.例如金 中的业务特点,提出了案件情报分析中的分析框架, 光、熊允发等将数据挖掘决策树应用于公安情报分析, 并以北京市201 1年盗窃类案件作为案例,运用相关数 提出了犯罪风险的预测方法模型[I’2 ;余先虎,许阳泉, 据挖掘方法进行了犯罪情报分析. 包晔,叶文箐等将数据挖掘中的关联分析方法应用于 刑事犯罪分析,实现了犯罪要素的频繁项提取【3 :李 1 公安信息化中的案件信息特点及分析框架 代超,吴文浩等则从时空可视化角度对犯罪行为的时 当前,公安部门在案件信息的管理上主要是采取 ①基金项目:国家“十二五”科技支撑计划项目(2015BAK12B03); ̄国人民公安大学基本科研业务费项目(2016JKF01211) 收稿时间:2016—06—03;收到修改稿时间:2016—07—07【doi:10.15888/j.cnki.csa.005609】 Research and Development研究开发249 计算机系统应用 http://www.c—S-a.org.cn 2017年第26卷第2期 案件数据库的方式.在案件的归类与整理过程中会对 案件信息按照相应的标准字段进行录入和存储管理, 目前公安部门的案件数据库中包含的主要字段有: (1)案件编号:即案件ID号,用于在案件数据库 中标识案件的唯一性: (2)发案时间:案件发生的具体时间,为一标准 的12位数字编码,其格式为:yy/mm/dd/hh/mm/ss; (3)发案地址:案件发生的具体地点,一般精确 到街道门牌号; (4)作案部位:案件发生的地段类型,如居民小 区、公路、商场等: (5)作案手段:指在案件发生过程中嫌疑人所采 用的作案手段和工具: (6)嫌疑人身份信息:一般为嫌疑人的身份证号. 公安部门的治安防控业务类型主要包括街面巡 逻、卡口盘查和社区防范.其中街面巡逻主要在特定 时段对案发较高的地段进行重点巡逻,因此在情报分 析上应以聚类分析为主,采取包括时空可视化、时间 异常点分析、空间热点挖掘、空间聚类分析和时空风 险分析等方法来发现案件的时空热点.而卡口盘查则 相对更加精细化,主要在重要路口及重点部位对街面 行人进行盘查,以杜绝或震慑可能发生的犯罪活动, 因此在工作中应当侧重于对作案手段、部位等特征的 标 频繁项提取,例如对案件信息中的作案时段、作案部 准 位和作案手段可通过频率统计[9】、决策树分析 、关联 分析等[3'4]来发现作案时段、作案部位和作案时段之间 存在的联系.社区防范则主要依托于社区警务,来对 社区中出现的一些异常人员和重点人员进行登记、访 问等,防止其可能出现的一些犯罪行为,因此在重点 人员的筛查和识别上应采取分类等方法,利用支持向 盟 闻一~ < 二作案特征= 量机、贝叶斯分类等方法根据人员的标签信息如年龄、 学历、户籍地、前科记录等来对社区中的普通居民和 具有犯罪动机的可疑人员进行筛查. 基于公安部门的业务特点,本文构建了面向治安 防控的情报数据挖掘分析框架.该框架由两部分组成. 首先,需要对案件数据库中的案件信息进行清洗,剔 除缺陷数据,并对案件地址信息进行空间编码;其次, 对标准化的案件信息分别利用聚类、分类和关联等方 法来挖掘案件的时空风险范围、重点异常人员群体和 典型作案特征等信息. 250研究开发Research and Development 图1 犯罪情报挖掘分析框架 2实例分析 2.1数据来源 本文研究的案件信息来源于北京市公安局盗窃电 动车案件信息库,本文提取了该信息库中2011年的案 件信息.该案件信息库中共有案件记录1000余条,其 中案件字段有案件编号、发案日期、发案时间、案件 状态、破案日期、案发地址、作案手段、作案部位等. 其中发案日期和发案时间提供了案件的时间信息:案 发地址提供了案件的空间位置信息:作案手段则对物 品被盗过程中的作案手法进行了描述,具体可分为 “盗车”、“开锁”、“剪拉”等六类:作案部位则详细描述 了物品被盗的环境特征,包括“居民区”、“商业区”、“广 场”、“车站”等十三类:案件状态则包括了“立案”、“破 案”和“受理”等.其中对于案件状态显示为“破案”的记 录则包含有全部的字段信息,而显示为“破案”和“受 理”的案件记录则仅包含有部分信息.为了有效的分 析案件数据,达到系统性提取知识要素的目的,本文 以“破案”为标签进行数据检索,并删除重复记录和信 息缺失的部分数据,最终得到有效案件记录共363条. 2.2时空聚集-眭分析 对北京市盗窃案件进行时空风险分析,首先对其 进行时问特征分析,发现案件在时间维度上存在有明 显的聚集区.其中案件高发时段位于中午12:00前后 和下午17:00至晚21:00以及凌晨0:00.其次,对案件 的空间分布特征进行分析,如图3中所示.图3为案件 坐标归一化后的位置分布,从中可以看到在空间层面 上案件的分布存在着若干个明显的聚类团簇. 2017年第26卷第2期 http://www.c—S-a.org.ca 计算机系统应用 从表1中结果可见,盗窃案件具有明显的时空聚集性, 即案发位置周边100米范围内,在案发后接下来的一 周时间内再次发案的可能性要大大超出随机发案的概 . 率,并且不同位置的发案风险是不同的,其中在原案 发位置再次发案的风险达到了779%,而在100米范围 。'自内的发案风险则下降到了3l5%.由此可见,2011年发 一....1..- 生于北京市的盗窃电动车案件有着时空聚集性的特点, 时空风险半径分别达到了7天和100米,并且随着案 一 一 发后时间的延续和空间距离的延伸而不断下降 .鑫 专 :. 一 . 一 图2案件时间分析 ● . .图3案件空间分析 1)对Ⅳ个事件 ,分别利用公式(1)和(2)计算每 个事件 至其他Ⅳ_,个事件的时间距离 和空间距 离巩j,(,= ,2一., ≠f); =ti一 (1) 厂———————:————————— %:√( -xj) +( 一 (2) 2)设定不同的时间与空间临界值 与 ALk(k=O,1…., ),根据事件 与事件 的时间距离 ,与空间距离 ,计算位于不同时空临界值范围内的 事件对l'ji(i=0,1,…M j ̄-O,1…,A f)的数量,最终形成 一个mxm的矩阵 : 3)采用蒙特卡罗仿真方法进行检验,即先假定事 件之间的时间距离与空间距离呈相互独立状态,在保 持事件的空间信息不变的基础上,随机重排时间信息 并按步骤(1).步骤(2)重新统计矩阵 中各要素的数量, 然后计算结果的置信度P,p=1.nJ(n +1).其中n 为对 应时间临界值 与空间临界值 上幢范围内实际事件 对数量大于模拟事件对数量的次数,n 为蒙特卡洛模 拟的次数.模拟次数越多,则结果的置信度越高. 利用该方法,对盗窃案件的时空聚集性进行分析. 表1 盗窃案件的时空聚集性分析结果 一一 2_3关联规则分析 在北京市盗窃类案件的数据中,作案手段分为了 六类(盗车、技术开锁、剪拉、撬车锁、钥匙开锁、其 它手段),作案部位分为了十三类(医院、公路、门店、 学校、停车场、商业区、企业、市场、小区、街巷、 广场、车站、其它),发案时间则精确到了时段.然而 从案件本身的时间性来看,报警时间与实际案发时间 往往存在着一定的滞后,即失主在物品被盗一段时间 后才会发现并选择报警,因此,以案件信息库中的发 案时间作为实际案发时间会对结果带来一定的偏差. 为此,本文调整了时间分析的尺度,将犯罪时间划分 为了上午(06:00—12:00)、下午(12:00.18:00)、前夜 (18:00.24:00)、后夜(24:00—06:00)等四个时段,从而减 小了时间尺度过细对分析结果精确度的影响. 首先,以作案时间、作案手段和作案部位作为数 据维度,分析不同维度下的作案规律.图2分别给出 了不同数据维度下案件数量的热力图,从图中可以看 出,在盗窃类案件中,采用撬锁和盗车两种手段的案 件较多,并且前者主要集中发生在白天时段,而后者 则主要集中在下午时段(图4(a));在作案部位上,发生 在小区的案件较多,并且作案时问主要集中在正午前 至傍晚时段(图4f1))),而作案手段也基本上表现为撬 锁和盗窃两种手段(图4(c)). Research and Development研究开发25 1 汁算机系统应}tj http://www.C—S—a.org.cn 20l7年第26卷 2期 算最小支持度和最大咒信度来确定棚 的关联规则. 设A、B均为7’的一一个项集并当F1.仅 1 A∈T、B∈ AnB= ,关联规则表示为 一 ,则最小支持度为D中 事务包含A UB的百分比,表示为概率P(A U );置信 度为D l{.】包含 的事务同时也包含B的事务的日分比, 表示为尸(B/A).同时满足最小支持度阂值(airn sup) 和最小 信度闽值(airn CO,z,)的规则称为强规则 ]. 本文将最小支持度初步设定为l%,最小霄信度 (a)发案时间.作案手段 设定为50%,利用数据挖掘软件Weka进行关联规则 挖掘,每次通过调整最小支持度和最小置信度的闽值 得到分析结果,并将挖掘得到的关联规则结果进行排 序,将:重复出现次数较多的规则提取 来.最终发现 ■I _~譬~●■ 酉复出现的一 有 条啦规则. ■_0譬 规则1.(发案时问=“上午”)八(作案部化=“街 巷”)一(作案手段=“撬车锁”)(4%,67%),孩规则表明在 L午发生的盗窃类案件中有4%的案件发生 衡巷并 且作案手段为撬车锁;而发案时问是 上午 m I -:lm Im lm 12:I}cJ 12:{m 1 t《Mi 1 :‘ :觉察时 (06:00.12:00)并}1.作案部位是在街巷的盗窃电动车案 件中,仃67%的案件采用的作案手段是撬锁: 规则2.(发案时问=“前夜”)八(作案手段=“盗车”) 一(作案部位=“小区”)(4.6%,60%),该规则表明发生存 (b)发案时问一作案部位 前夜的盗窃类案件中有4.6%的案件采用的作案手段 足盗车并且发生在居民小区内:发案时问是在前夜 (】8:00.24:00).4 ̄-且作案手段为盗车的盗窃类案件中, 何60%的案件发生在居民小区. lli ̄" t2索lf搬 聘持 曹E 精下铺调鐾 f城 3 结论 作为情报引导警务的重要组成部分,公安情报分 析对合理的引导警务决策、分配警力资源、提升防控 打击效能具有十分重要的作用.本文从公安业务特点 手段 (c)作案手段一作案部位 图4不同数据维度的发案频率分布热力图 对盗窃类案件信息采用关联分析方法进行分析, 分析方法采用经典的Apriori算法,该算法的原理如 出发,构建了面向治安防控的公交情报数据挖掘框架, 并以北京市201 1年盗窃案件数据为例进行了分析.本 研究对 建立以面向公安实战化的情报分析模型与分 析体系具有一定的实际意义,对于拓展数据挖掘的应 用范围和领域具有较大的借鉴作用. 下: 设,={f,.f ..,id}为全部项的集合,任务相关的数 据D是数据库事务的集合,其中每个事务7’是项的集 合,使得 ∈,|通过对数据库进行扫描,累计每个项 的计数,并收集满足最小支持度的项,找出频繁l项 参考文献 I金光,钱家麒,钱江波,黄蔚民.基于数据挖掘决策树的犯罪 风险预测模型.计算机:r:程,2003,29(9):l 83—1 85. 2熊允发.公安情报分析【}I决策树方法的应用.中国人民公安 大学学报(自然科学版),2008,(1):48—50. 集的集合,记为 ,,然后以 ,为基础再次进行数据库 扫描寻找频繁2.项集 。,继而是£3,依次循环,直到 不能再找到频繁k项集为 .确定频繁项后,通过计 2017年第26卷第2期 http://www.c-S-a.org.cn 计算机系统应用 3余先虎.犯罪行为关联分析研究.宁波工程学院学报,2013, 25(3):36-40. 9陆娟,汤国安,蒋平.犯罪均值频率一一种犯罪时间分布的测 度指标.中国人民公安大学学报(社会科学版),2012,(3): l52-156. 4许阳泉.改进型Apriori算法在犯罪关联分析中的应用.软件 导刊,2013,12(11):68—70. 10 Knox G Epidemiology of childhood leukaemia in Northumberland and Durham.British Journal of Preventive &Social Medicine,1 964,1 8:1 7 4. 1 1 Townsley M,Johnson SD,Ratcliffe JH.Space time 5包晔.关联分析技术在刑事犯罪分析中的应用.数学的实践 与认识,2011,41(2O):149-154. 6叶文箐。吴升.基于加权时空关联规则的公交扒窃犯罪模式 识别.地球信息科学,2014,16(4):537—544. 7李代超,吴升.面向不同主题的犯罪大数据可视化分析.地球 dynamics of insurgent activity in Iraq.Securiy Jourtnal, 2008,21:139-146. 信息科学,2014,16(5):735—745. 8吴文浩,吴升,多时问尺度密度聚类算法的案事件分析应用. 地球信息科学,2015,17(7):837-845. 12 Ratcliffe JH,Rengert GF.Near-repeat pa ̄ems in Philadelphia shootings.Securiyt Journal,2008,2 1:58-76. Research and Development研究开发253