摘要

针对DBSCAN算法参数对聚类结果具有较大的不确定性问题,该文提出了基于空间分析的参数优化思想。首先,基于Ripley's K函数分析,实现自适应确定数据聚类范围EPS值;基于K-D树分析,实现自适应确定在Eps阈值内的点数量MinPts值。然后,基于以上参数的自适应确定思想,利用R语言编写了DBSCAN算法,进一步实现了数据的精确聚类。基于典型城市管理案件的实验结果表明:该方法充分考虑了空间数据统计特性,具有较好的适用性,聚类簇特征明显,聚类质量较高。

引用格式

伏家云,靖常峰,杜明义,等.参数优化DBSCAN 算法的城管案件聚类分析[J].测绘科学,2018,43(8):135-140.

正文

随着各行业对海量数据处理和深度分析需求的快速增长,数据挖掘成为众多学者研究的热门领域[1],其中,在城市精细化管理方面,数据挖掘的兴起为其提供了技术支撑[2]。随着社会与科学技术的进步,各种有关城市管理的问题相继而生,据多城市政府工作报告指出,伴随城镇化进程的稳步推进,城市管理案件(以下简称城管案件)的数量也在逐年上升,严重影响了城市市容市貌和城市发展的平稳运行。因此,利用空间数据挖掘技术对城管案件进行分析、辅助政府决策,对现代化城市管理和发展具有重要理论和实用价值。

聚类分析作为数据挖掘的一种方法已被广泛运用,其中基于密度的DBSCAN(density-based spatial clustering of application with noise)算法,因具有聚类速度快、数据集适应性强、噪声不敏感等显著特点,受到了众多研究者的关注[3]。但是DBSCAN算法需要人工确定参数Eps和MinPts,并且这两个参数的取值直接影响数据聚类质量。针对如何选取最优参数的问题,有大量文献提出先假定MinPts,再确定Eps值的方法,虽然避免了人工确定参数值,但这些方法是以假定MinPts为前提,仍缺乏参数的自适应确定,如文献[4]取MinPts为4,根据数据对象集合的第4近邻距离图,取Eps为略低于噪音水平百分比位置的值;文献[5]假定MinPts为3,然后根据K-dist曲线确定Eps值。针对全局参数Eps和MinPts的自适应确定,有学者进行了相关的研究。其中,以数据集特征统计分析为前提的研究较多,文献[6]提出将K-dist概率曲线与统计模型拟合取其峰值为Eps,绘制Noise曲线取其拐点为MinPts的方法实现了参数的自适应确定,但整个过程过于繁琐且计算量大,实用性弱;文献[7]通过核密度估计理论建立合适的数学模型自适应确定Eps和MinPts值,但该方法不适用于密度差别较大的数据集,且算法的计算复杂度高。也有以探索数据分区为前提的研究方法,如文献[8-9]对数据区域先划分再聚类;文献[10]通过选取种子代表对象,减少区域查询次数的方法实现高效率聚类算法。

综上所述,现有文献针对空间数据及空间统计特征的研究偏少,基于密度的DBSCAN聚类算法仍需要针对研究数据集探索数据统计特性并实现高质量聚类。本文主要以Ripley’s K函数和K-D树分析城管案件数据统计特性,并自适应确定DBSCAN算法参数,利用优化的DBSCAN算法对典型的城管案件进行数据挖掘,为城市管理政策的制订提供决策辅助,为城管监督员的调度提供量化分析支撑,从而提升城市运行精细化管理能力。

本文以北京市西城区为研究区域。西城区位于北京市中心,是集政治、经济、文化与旅游业为一体的核心发展区域,其特殊的地理位置对西城区的城市管理提出了较高要求。西城区占地面积约50万km2,目前共有15个街道。

本文以西城区2009—2012年的网格化城市管理案件数据为研究数据源,选取占比最大的市容环境(39%)和街面秩序(36%)为典型城管案件进行研究。根据国家标准《数字化城市管理信息系统_第2部分:管理部件和事件》(GB/T 30428.2—2013)定义,市容环境类案件是指影响城市市容与市貌的案件,主要包括暴露垃圾、绿地脏乱和道路不洁等;街面秩序类案件主要包括无照经营游商、店外经营和流浪乞讨等。

市容环境案件相关性分析结果

基于密度的DBSCAN算法聚类是一种非监督分类方法,在缺乏任何先验知识的前提下,参数EpsMinPts的取值对分析结果具有较大影响。因此,其参数的自适应确定是近年研究的热点。本文针对参数自适应和聚类质量的问题,提出了基于Ripley’s K函数和K-D树分析的方法优化参数值,并将此方法应用到城市精细化管理案件的数据挖掘中,为城管人员合理部署、行政政策制订提供决策辅助。实验结果表明,本文方法确定的参数具有较好的自适应性,聚类质量高、效果明显,对精细化城市管理实践工作具有现实指导意义。但是,由于积累数据量有限,实验区相对较少,因此收集更多的数据对该算法进行验证将是后续的主要工作。

编辑:邓国臣

往期热点文章

《测绘科学》2018年第8期目次

震前尼泊尔GPS速度场分析

超高层建筑周日摆动监测

一种住宅房产评估方法

一种面向百万级数据的热力图生成算法

《中国世界遗产地图集》的设计与编制

无人机影像快速应急方法

全息地图建模与多重表达

青藏高原北部质量变化研究

中国南海海底地形模型

SLAM 室内三维重建技术综述

(查找往期消息:进入公众号—号内搜)

觉得不错,请点赞↓↓↓

查看原文 >>
相关文章