基于模糊邻域的比较密度峰值算法

李 昕 雷迎科

(国防科技大学电子对抗学院,安徽合肥 230037)

摘 要: 聚类作为机器学习中一种重要的无监督学习方式,在图像处理及生物基因分类上具有广泛的应用。快速密度峰搜索与聚类算法(DPC)提出通过寻找密度峰对数据进行分类,它既不需要迭代过程,也不需要人工输入太多参数。但在球形数据集上,DPC算法聚类效果不好,容易忽略潜在的聚类中心,需要人工参与聚类中心选取。针对上述问题,本文采用模糊邻域关系计算数据密度,采用比较距离代替DPC算法中的相对距离。通过对机器学习数据集的实验,将本文提出的算法同DBSCN、OPTICS、DPC在准确率和调整兰德系数上进行比较。实验结果表明本文提出的算法可行有效。

关键词:无监督机器学习;密度峰值聚类算法;模糊聚类算法;比较距离

1 引言

聚类分析[1]作为数据挖掘中一种重要手段,它既可以作为分类算法的预处理步骤(这些算法以聚类算法生成的簇为基础进行数据处理,然后对聚类的结果做进一步的关联分析),还可以直接利用聚类算法得到数据分布的情况,观察每个簇的特点,根据需要对某些特定簇进一步分析。传统的聚类过程一般由以下五个部分组成:样本准备(模式准备)、特征选择与提取、接近度(相似度)计算、聚类(分组)、对聚类有效性进行评估(包括准确率与计算效率等)[2-3]

传统的聚类算法大致可以分成划分聚类方法[4]、层次聚类方法[5]、网格聚类方法[6]、密度聚类方法[7]和基于模型的聚类方法[8]等。传统聚类方法有各自的缺陷,难以满足现代社会对聚类效果的要求。

本文采用基于密度的聚类算法,基于密度的聚类算法是利用区域的稀疏程度划分高密度区域,从而发现明显的聚类和孤立点,主要是对空间型数据进行聚类。其中代表算法有DBSCAN算法[9]、DENCLUE算法[10]、OPTICS算法[11]和AP(Affinity Propagation)算法[12] 等。DBSCAN算法是一种基于高密度连通区域的聚类算法,将紧密相连的点划为一类,把具有足够高密度的区域划分为簇,但需要人为提前设置Eps(E邻域)和MinPts(最少数目)。DENCLUE算法是一种基于密度分布函数的聚类算法,DENCLUE算法比DBSCAN算法更加灵活准确,但是仍然需要人为在密度上设置两个参数。OPTICS算法计算量大,处理过程中负担大,难以形成数据集簇。AP算法需要预先设定簇号,在数据间的相似矩阵对称的前提下,才能得到较好的聚类效果,AP算法聚类效果受偏置参数影响且不能对海量数据进行聚类,因此实用性低。

Alex Rodriguez和Alessandro Laio于2014年在《Science》上发表了一篇关于密度峰值聚类算法的文章:《Clustering by fast search and find of density peaks》[13]是对基于密度的聚类算法的一次重大改进。该文章提出了一种新的选取聚类中心的方法,它认为较高密度的聚类中心点是被低密度的点所环绕且该点与其他更大局部密度的点有一个较大的相对距离。基于以上两个特征,DPC算法计算各个点的局部密度和相对距离,以各个点的局部密度和相对距离为坐标轴画出决策图,依据决策图寻找聚类中心。因为作为聚类中心的点具有较大的局部密度和相对距离,所以这些点往往会出现在决策图的右上方。DPC算法计算速度快,对任意形状数据集都能进行聚类,只需要人工输入参数:截断距离dc。虽然DPC算法有以上的优点,但是其缺陷也很明显。在面对复杂的数据集时,决策图也很复杂,很难选取到正确的聚类中心点,容易忽略一些潜在的聚类中心点或选取伪聚类中心点。DPC算法进行聚类时,利用密度和相对距离划分非聚类中心点,容易出现错误,算法的大部分错误都集中在这里[14]

本文提出了模糊比较密度峰值聚类算法,引用模糊邻域关系改进密度计算方式,同时还引入了比较距离,使得聚类中心点在决策图上更加突出,且在知道聚类的类别数目时,不需要人工参与也能实现对聚类中心的选取。

使用一般数学方法进行的聚类被称为普通聚类方法,而使用模糊数学方法进行的聚类被称为模糊聚类[15]。Ruspini于1969年首次将模糊集理论应用到聚类分析中,提出了模糊聚类算法(fuzzy c-means,简称FCM)[16]。随后人们便对FCM进行了大量的研究和改进。Nasibov和Ulutagay提出了一种新的处理模糊的方法:基于模糊联合点法(FJP,Fuzzy Joint Points)[17],从基于层次的视角来看待邻域概念,表明对象在多大程度上会被考虑在同质类的构造中。这意味着隶属度越大,对象越相似。基于上述观点,一些基于模糊聚类的算法被提出来。刘沧生针对传统的FCM算法需要人工选择聚类中心数目的缺陷,提出基于密度峰值聚类算法改进的模糊C均值聚类算法——FDP-FCM[18],将局部密度较大且相对距离较大的点作为聚类初始中心点,在迭代过程中加入密度加权因子与振荡系数,加快算法的迭代速度;针对FCM算法对初始值敏感、容易陷入局部最优,DPC算法的性能依赖人工输入的参数——截断距离,任维新[19]提出DPC-FCM融合算法,拥有更好的聚类效果。

2 DPC算法简介

DPC算法是基于以下两个假设对数据进行聚类:(1)聚类中心被一些密度比它低的点所环绕;(2)聚类中心之间的距离比其他低密度点到聚类中心点的距离更大。

这两个假设对预期聚类中心进行了描述,同时也给出对潜在聚类中心的检验标准。基于这两个假设,需要计算每个点的密度ρ和相对距离δ

(1)计算密度ρ:密度ρ是基于脆性邻域关系进行定义的。

(1)

其中χ(x)是0-1函数,当X大于等于0时,函数值为0;当X小于0时,函数值为1。使用截断dc是人工输入的参数,一般根据经验来定。DPC算法使用欧式距离,即常用的L-2范式:

d[(x1,x2,…,xn),(y1,y2,…,yn)]=

(2)

(其中r=2)。截断距离dc是人工输入的参数,一般是依据经验进行赋值。式(1)是为了找到数据空间中与数据点i距离小于dc的点的数目。

(2)计算相对距离δ:对于每一个节点i都能找到比其密度大的节点j,计算节点ij的距离,定义其中最小的dijδi;如果节点i有最大的密度,则δi为该点到其他点的最大距离。

(3)

(3)以密度ρy轴、相对距离δx轴画出决策图。由假设可知,拥有较大密度和较大相对距离的点为聚类中心点,一般位于决策图的右上方。

图1 数据散点分布图和决策图
Fig.1 Data scatter plot and decision graph

(4)对非聚类中心点进行聚类。假设Δi是距点i最近的且密度比其大的点。这意味着在所有密度比i大的点中,Δi是距离点i最近的点。如果i是密度最大的点,则Δi设置为点i本身(s是除点i外其他点的集合)。

(4)

定义δi是点i到离它最近的且密度比其大的点的距离。在大多数情况下,δi是表示点i到Δi的距离。聚类非中心点的过程就是给这些点分配Δi标签的过程。由于一开始只有集群中心才有自己的标签,所以聚类过程可以看作聚类中心点标签传播的过程。

(5)簇核心与簇光晕的判别。某一簇内有一数据点,在与该点距离小于dc的范围内存在属于其他簇的数据点,这些点构成的区域被称之为该簇的“边界区域”,该区域中局部密度最大的数据点的密度值为分割阈值ρb。对属于该簇的数据点进行判断,其中局部密度值大于ρb被视为簇核心(鲁棒性分配),其他的则视为簇光晕(可以看作噪声)。

3 使用模糊邻域的比较密度峰值算法

3.1 使用模糊邻域计算密度

式(1)利用脆性邻域关系计算数据点的局部密度,本文将使用模糊邻域[20]关系计算数据点的局部密度,式如下所示:

(5)

ρi=∑jμ(xi)(xj)

(6)

其中ε是邻域半径,它的定义为ε=「dmax×dc⎤,dmax是点与点之间距离的最大值,即max(dij)。「·⎤是ceiling函数,所以一直有εdmax

如图2所示,假设数据集中存在两个点X1X2,在邻域半径ε内点的数量相同。当使用式(1)计算密度时,点X1和点X2的局部密度相同;当使用式(6)计算点的局部密度时,点X2的局部密度明显比X1大,通过这个方法可以区分点X1和点X2的局部密度差异。在DPC算法中,在核心点的邻域半径内的点不区分归属度,即在核心点邻域半径内的点之间不存在差异。如图3所示,对于核心点X,点y1y2有同样的邻域归属度—都为1。

图2 脆性邻域和模糊邻域的区别
Fig.2 The difference between crisp and fuzzy neighborhood

模糊邻域归属关系如图4所示,利用模糊邻域关系计算局部密度有以下两个优点:(1)对于同一个核心点,在邻域半径ε内,距核心点的距离不同,点的邻域归属度值也不同。上述例子采用模糊邻域关系计算局部密度时,X2会比X1有更高的邻域归属度,即有更高的局部密度。(2)点到核心点有不同的距离,它们的邻域归属度也不同,聚类更加准确。

图3 DPC算法中脆性邻域关系
Fig.3 The crisp neighborhood relation of the DP clustering

图4 模糊邻域关系
Fig.4 The fuzzy neighborhood relation of the FN-DP clustering

图5 不同核函数对比实验
Fig.5 The comparative experiment of different kernel

为了更加形象的说明采用模糊邻域关系的优势,本文采用4000个人工制造的数据点进行仿真实验,具体情况如图5所示。图5(a)是数据基于DPC算法,利用截断核函数(即采用脆性邻域关系)计算局部密度生成的决策图;图5(b)是使用高斯核函数计算局部密度生成的决策图;图5(c)是使用模糊邻域关系计算局部密度生成的决策图(都使用式(3)计算相对距离)。通过比较(a)、(b)、(c)三幅图,我们可以清楚地看到,在使用模糊邻域关系计算点的局部密度生成的决策图中,聚类中心更加突出,聚类中心地选取更加准确、容易。上述实验说明使用模糊邻域关系的算法性能更加优越,能够更好地区分聚类中心点和其他非聚类中心点,有效地去除伪聚类中心带来的影响;同时,在对非聚类中心点进行聚类时,利用模糊归属度进行划分,能够有效地抑制DPC算法中仅利用参数dc带来的“边界区域”划分问题(部分数据点可能属于多个簇)。虽然利用阈值ρb可以去除一些噪声点,但存在数据浪费现象(一部分有用的数据被去除)。使用模糊邻域关系计算密度,可以减轻这个问题带来的影响,不会出现损失大量有用数据的情况。

3.2 使用比较距离寻找聚类中心

在上一节中使用模糊邻域关系对DPC算法进行改进,算法的性能有了很大的提高,这一节将会采用比较距离对算法做进一步改进,实现以下两个目标:(1)决策图的进一步优化;(2)自动选取聚类中心。

比较距离是对DPC算法第二个假设的改进,对第二个假设中的比较量进行相对距离重新建模。DPC算法中第二个假设认为聚类中心点到其他局部密度较高点的距离相对较大。基于DPC算法的第二个假设,引入比较距离这个变量,进一步约束假设,在“相对”上做的更好。DPC算法并没有对δi做定量比较,而且相对大小只在决策图上显示。因此选择一个新的变量去替代δi,在算法中体现相对大小,进行比较。基于上述条件,定义了一个与δi相类似的量ξiξi的定义与δi相反:点i到比其局部密度低的点的最小距离,具体数学表达见式(7)。

(7)

ξi表示的是点i到低密度区域的距离,是一个非常适合与δi进行比较的量。在此,我们定义一个新的变量θi来表示δiξi的区别:θi=δi-ξi。变量θi是用来比较δi的大小,帮助选取潜在的聚类中心,排除伪聚类中心。当δi远远大于ξi时,意味着较高密度点到点i的距离比低密度区域到点i的距离要大。这说明点i是被低密度点环绕且离较高密度点距离较大(聚类中心点的特征),图6是DPC算法和CDPC算法(DPC算法使用比较距离)在人工制造的数据集上的决策图,从图上可以看到:当使用比较距离时,聚类中心点更加突出。

图6 DPC算法与CDPC算法决策图
Fig.6 Decision graphs of DPC and CDPC algorithm

如图7所示:聚类中心点X1和非聚类中心X2,点X1被低密度点环绕,到低密度点的最小距离为ζ1,距较高密度点的最小距离为δ1。从图上可以清晰地看出δ1远比ξ1大,这说明对于聚类中心点,其θ值远大于零。相反,对于簇中的其他点,它们的θ值非常小,大约在零值附近。以上描述表明变量θ的数值可以表示δξ的相对大小,与DPC算法第二个假设一致,将θ代替δ放到决策图中将会获得更好的效果。我们重新定义一个变量γ=θ*ρ,聚类中心点有较大的θ值和ρ值,这说明聚类中心有着更高的γ值。图8是使用4000个人工数据点得到的γ值图:在图上可以看出,与非聚类中心点相比,聚类中心点拥有更高的γ值,能够通过γ值将聚类中心选取出来。

图7 关于θi具体说明图
Fig.7 The detailed description of θi

图8 γ值样例说明
Fig.8 The illustrated example of γ

3.3 使用模糊邻域关系的比较密度峰值算法具体步骤

输入:包含n个点的数据集S={1,2,…,n}

输出:m类簇

s1.利用式(2)计算各个点之间的距离;

s2.利用式(5)、(6)计算各个点的ρ值(模糊隶属度);

s3.利用式(4)、(7)计算各个点的δ值和ζ值;

s4.计算各个点的θ值和γ值;

s5.利用θ值和ρ值画出决策图寻找聚类中心点(知道聚类中心数目时,利用γ值找到聚类中心点);

s6.利用式(4)对非聚类中心点聚类;

s7.噪声和边界的计算方法与DPC算法一致。

3.4 复杂度分析

假设N是数据集上点的总数目。计算距离矩阵的复杂度为O(N2),计算δξ的复杂度为O(N+N2),计算θγ的复杂度为O(N),计算密度ρ的复杂度为O(N2),排序过程中快速排序的复杂度为O(NlogN),本文提出的算法复杂度为O(N2)+O(N+N2)+O(N)+O(N2)+O(N2)+O(NlogN)。

4 实验及实验结果分析

为了验证采用模糊邻域关系比较密度峰值算法的有效性,本文将其与DBSCAN算法[9]、OPTICS算法[11]以及DPC算法[13]进行比较。实验数据集包括源于文献[13]的Aggregation数据集、D31 数据集和R15数据集以及UCI机器学习库中的Optdigits Dataset(Optdigits)、Sonar Dataset(Sonar)、the Heart Disease database (Heart)、Wine Recognition Database (Wine)、Iris Plants Database(Iris)、Ringnorm Database(Ringnorm)和Penbased Dateset(Penbased)。上述数据集具体说明如表1所示,其中D31 数据集和R15数据集是典型球形数据集。图9是本文提出的算法和DPC算法在D31数据集和R15数据集上聚类得到的结果。本文在台式电脑上使用Matlab R2016b进行仿真实验,该电脑采用Win 10 64bit操作系统,双核3.7GHz CPU,32GB RAM。

表1 实验数据集描述
Tab.1 The description of experimental data set

数据集数据数量数据维度数据类别数D313100231Optdigits56206410Aggregation78826R15600215Sonar208602Heart270132Wine178133Iris15043Ringnorm7400202Penbased109921610

4.1 基于Optdigits数据集超参数dc对算法影响的实验

超参数dc是人工输入的参数,根据人工经验选取,超参数dc的值影响邻域半径ε(在DPC算法影响截断距离)。基于上述情况,超参数dc的选取影响算法的性能。然而在实际情况中,多次进行试验找最佳超参数dc是不现实的。因此,本文基于Optdigits数据集,选取不同dc值进行试验,来比较不同的dc取值对算法性能的影响。实验结果如图10所示,横坐标为dc的取值(从0.1到1.0,间隔为0.1),纵坐标为识别的准确率。从图10可以看出,采用不同的dc值,确实会影响算法的识别效果。对于DPC算法和本文提出的算法在区间[0.1-1.0]内都存在一个最佳值使得算法取得最好的识别效果。通过上图可以观察到,虽然算法的性能都受到超参数dc取值的影响,然而本文提出的算法准确率的波动比DPC算法小且准确率一直高于DPC算法。超参数dc取值大于0.3时,本文提出的算法准确率已趋近于平稳,在0.8附近有小幅度波动,而DPC算法波动一直较大。综上所述,超参数dc取值对算法性能有影响,就准确率和稳定性而言,本文提出的算法性能比DPC算法更好。

图9 DPC和 FCDPC在D31和R15数据集上聚类结果
Fig.9 Experimental results of DPC and FCDPC on D31 and R15 datasets

图10 不同的dc对算法准确率的影响
Fig.10 The clustering accuracy with different dc

4.2 算法在不同数据集上的表现

本文在实验中采用常用的准确率[21]对各个算法的聚类效果进行评估,准确率(Accuracy)计算式为:

(8)

式(8)中:N为待聚类的数据库中样本的数量,φ(x,y)为一个函数,当x=y时,函数值为1;xi代表样本真实的类别标签,yi代表由算法得到的样本聚类标签。Acc值越大,聚类的效果越好。算法在各个数据集上的具体表现见表2和表3。以本文算法在D31数据集上的实验为例,D31数据集共有31类簇,3100个数据,对这些数据点进行聚类,每个点会获得一个簇的样本标签,该样本标签与该点对应簇的真实标签一致时,视为聚类正确,统计一次实验中所有获得正确样本标签点的总数,除以数据点总数目(3100),就是此次试验的准确率。

表2说明本文提出的算法(FCDPC)和其他算法在10个数据集上表现(其中CDPC算法是DPC算法使用本文提出的比较距离;GDPC[22]是近年来提出的基于共享近邻相似度的密度峰聚类算法)。对于Heart数据集,DBSCAN算法出现了异常值,因此没有在这个数据集上对DBSCAN算法进行评估。通过对表1和表2的观察,发现无论聚类中心数目是多少,本文提出的算法在准确率上是明显优于DBSCAN,OPTICS,DPC三种算法。当数据集数据较多时,FCDPC算法依然有较好的识别效果且都优于其他三种算法;当DPC算法采用比较距离时,算法的性能有一定的提升,说明使用比较距离能提升算法的性能;本文的提出的算法与GDPC算法相比,虽然在部分数据集上准确率较低,但差距不大,而且在一些数据集上,本文提出的算法比GDPC算法性能更好,说明本文提出的算法的可行性。综上所述,本文提出的算法在任一数据集上都有较好的识别效果且都优于DPC算法,且达到了近年来研究的平均水平。表3是三种算法在调整兰德系数[23]上的表现(调整兰德系数在[-1,1]上,调整兰德系数越大,说明算法的聚类情况越接近于实际情况),通过兰德系数我们可以看出本文提出的算法明显优于其他两种算法,聚类情况更加接近实际情况。

通过以上实验可以总结得出:(1)本文采用模糊邻域关系计算各个点的局部密度,能够增加算法的鲁棒性,且边界模糊问题得到较好的抑制;(2)本文在DPC算法假设二中增加了θξ两个变量,使算法聚类效果更好;(3)采用本文提出的方法计算局部密度ρ和相对距离θ并画出决策图,能够更加容易地将聚类中心点与其他非聚类中心点分开,找到隐藏的聚类中心点且排除其他伪聚类中心点的干扰,提升算法的聚类效果;(4)在知道聚类中心的数目时,利用本文定义的变量γ能够快速准确自主动选取聚类中心。

表2 本文算法与其他算法在不同数据集上的对比(准确率)
Tab.2 The algorithm in this paper compared with other algorithms in different data sets (Accuracy)

数据集DBSCANOPTICSDPCCDPCGDPCFCDPCD310.8950.8950.9120.9180.930.923Optdigits0.580.580.60.590.570.6Agrregation0.90.90.9030.9030.9270.905R150.9520.9520.960.9630.970.97Sonar0.61250.61250.680.680.620.7Heart-0.780.80470.8130.7630.85Wine0.33920.33920.91570.920.930.932Iris0.6670.6670.90.9150.940.958Ringnorm0.50380.50380.50820.5160.53290.5216Penbased--0.71770.730.750.7606

表3 本文算法与其他算法在不同数据集上的对比(调整兰德系数)
Tab.3 The algorithm in this paper compared with other algorithms in different data sets (Adjusted rand index)

数据集DBSCANDPCFCDPCOptdigits0.360.620.71Heart-0.37530.3800Wine00.75620.7902Iris0.56810.74550.8826Penbased-0.59920. 6271

5 结论

本文对DPC算法的两个假设进行改进。针对该算法的第一个假设,使用模糊邻域关系计算局部密度;针对第二个假设提出采用比较距离代替相对距离,改善了决策图的性能,使聚类中心的选取更加准确。同时非聚类中心点的聚类更加准确,抑制边界模糊,增强算法的鲁棒性。在获取聚类中心点数目前提下,本文提出的算法自动选取聚类中心点,避免人为失误对算法性能的影响。本文提出的算法在10个数据集上都得到了较好的验证,其性能明显优于其他聚类算法。下一步将会对算法进一步优化,降低算法的复杂度并增强其鲁棒性,在聚类中心数目未知的前提下实现自动选取聚类中心。

参考文献

[1] 蔡元萃, 陈立潮. 聚类算法研究综述[J]. 情报科学杂志, 2007, 17(1): 145-146.

Cai Yuancui, Chen Lichao. Research review of clustering algorithm[J]. Information Science, 2007, 17(1): 145-146.(in Chinese)

[2] Jain A K, Duin R P W, Mao J. Statistical pattern recognition: A review[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2000, 22(1): 4-37.

[3] Sambasivam S, Theodosopoulos N. Advanced data clustering methods of mining Web documents[J]. Issues in Informing Science and Information Technology, 2006(3): 563-579.

[4] Lahari K, Murty M R, Satapathy S C. Partition based clustering using genetic algorithm and teaching learning based optimization: performance analysis[C]∥Emerging ICT for Bridging the Future-Proceedings of the 49th Annual Convention of the Computer Society of India CSI Volume 2. Springer, Cham, 2015: 191-200.

[5] Xie Juanying, Wang yane. K-means Algorithm of Minimum Variance Optimization Initial Cluster Centers[J]. Computer Engineering, 2015, 40(8): 206-223.

[6] Wang Chong, Lei Xiujuan. The New Niche Fireflies Divide Cluster Algorithm[J]. Computer Engineering, 2016, 40(5): 175-179.

[7] Wang Xin, Wang Hongguo. Cluster Analysis Method and Instrument Research[J]. Computer Science, 2006, 33(2): 17-20.

[8] Xiao Yu, Yu Jian. Semi-supervised Clustering Based on Affinity Propagation Algorithm[J]. Journal of Software, 2008, 19(11): 2803-2813.

[9] Li Minghua, Liu Quan, Liu Zhong. New Development of Clustering in Data Mining[J]. Computer Application Research, 2008(1): 32-39.

[10] Chen Yin, Cheng Yan. Data Mining: Concept、Model、Method and Algorithm[M]. Tsinghua University Press, 2003.

[11] Ankerst M, Breunig M, Krie H. OPTICS: ordering points to identify the clustering structure[C]∥Proceedings of ACM conference on Management of Data (SIGMOD 99), 1999: 49- 60.

[12] 谢文斌, 童楠, 王忠秋, 等. 基于粒子群的近邻传播算法[J]. 计算机系统应用, 2014, 23(3): 103-107.

Xie Wenbin, Tong Nan, Wang Zhongqiu, et al. Affinity Propagation Algorithm Based on Particle Swarm Optimization[J]. Computer System Applications, 2014, 23(3), 103-107.(in Chinese)

[13] Rodriguez A, Laio A. Machine learning. Clustering by fast search and find of density peaks[J]. Science, 2014, 34(6191): 1492.

[14] Du M, Ding S, Jia H. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J]. Knowledge-Based Systems, 2016, 99: 135-145.

[15] 张麟, 潘红岩. 聚类分析算法应用研究[J]. 数字技术与应用, 2016(10): 143-143.

Zhang Lin, Pan Hongyan. Application Research of Clustering Analysis Algorithm[J]. Digital Technology and Applications, 2016(10): 143-143.(in Chinese)

[16] Bezdek J C, Ehrlich R, Full W. FCM: The fuzzy c -means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2): 191-203.

[17] Ni L, Luo W, Bu C, et al. Improved CFDP Algorithms Based on Shared Nearest Neighbors and Transitive Closure[C]∥Workshop on Pakdd Workshops, 2017.

[18] 刘沧生, 许青林. 基于密度峰值优化的模糊C均值聚类算法[J]. 计算机工程与应用, 2018, 54(14): 153-157.

Liu Cangsheng, Xu Qinglin. Fuzzy C-means clustering algorithm based on density peak value optimization[J]. Computer Engineering and Applications, 2018, 54(14): 153-157.(in Chinese)

[19] 任新维, 张桂珠. 融合密度峰值和模糊C-均值聚类算法[J]. 传感器与微系统, 2018, 37(3): 145-147.

Ren Xinwei, Zhang Guizhu. Algorithm fuses density peaks and fuzzy C means clustering[J]. Transducer and Microsystem Technologies, 2018, 37(3): 145-147.(in Chinese)

[20] Du M, Ding S, Xue Y. A robust density peaks clustering algorithm using fuzzy neighborhood[J]. International Journal of Machine Learning & Cybernetics, 2017 (12): 1-10.

[21] Chen Wenyen, Song Yangqiu, Bai Hongjie, et al. Parallel spectral clustering in distributed systems[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2011, 33 (3): 568-586.

[22] Xu X, Ding S, Shi Z. An improved density peaks clustering algorithm with fast finding cluster centers[J]. Knowledge-Based Systems, 2018, 158: 65-74.

[23] 邱保志, 唐雅敏. 快速识别密度骨架的聚类算法[J]. 计算机应用, 2017, 37(12): 3482-3486.

Qiu Baozhi, Tang Yamin. Research on Clustering Algorithm for Fast Recognition of Density Backbone[J]. Journal of Computer Applications, 2017, 37(12): 3482-3486.(in Chinese)

Clustering by Comparitive Density Peaks Using Fuzzy Neighborhood

Li Xin Lei Yingke

(Electronic Countermeasures Institution of National University of Defense Technology, Hefei, Anhui 230037, China)

Abstract: As an important unsupervised learning method in machine learning, clustering has a wide range of applications in image processing and biological gene classification. “Clustering by fast search and find of density peaks” (DPC) proposes to classify data by looking for density peaks, which does not require an iterative process or too many input arguments. However, the DPC algorithm performs poorly on the spherical dataset, and it is easy to ignore the potential cluster center, and needs to manually participate in the cluster center selection. In view of the above problems, this paper uses the fuzzy neighborhood relationship to calculate the data density, and uses the comparative distance instead of the relative distance in the DPC algorithm. Through the experiment of machine learning data set, we compared our algorithm with DBSCAN, OPTICS and DPC in terms of accuracy and ARI. The experimental results show that the proposed algorithm is feasible and effective.

Key words unsupervised machine learning; density peak clustering algorithm; fuzzy clustering algorithm; comparitive distance

中图分类号:TP181

文献标识码:A

DOI: 10.16798/j.issn.1003- 0530.2019.11.018

引用格式: 李昕, 雷迎科. 基于模糊邻域的比较密度峰值算法[J]. 信号处理, 2019, 35(11): 1919-1928. DOI: 10.16798/j.issn.1003- 0530.2019.11.018.

Reference format: Li Xin, Lei Yingke. Clustering by Comparitive Density Peaks Using Fuzzy Neighborhood[J]. Journal of Signal Processing, 2019, 35(11): 1919-1928. DOI: 10.16798/j.issn.1003- 0530.2019.11.018.

收稿日期:2019-06-13;修回日期:2019-09-10

文章编号:1003-0530( 2019) 11-1919-10

作者简介

李 昕 男, 1996年生, 安徽安庆人。国防科技大学电子对抗学院硕士研究生, 研究方向为通信信号处理、模式识别。E-mail: gfkdlixin@163.com

雷迎科 男, 1975年生, 安徽安庆人。国防科技大学电子对抗学院指挥与控制系副教授, 研究方向为通信信号处理、模式识别。