相似性度量对聚类性能的影响

来源：核心期刊咨询网发布时间：咨询：次

摘要：1、简介聚类分析是数据挖掘的重要组成部分，它是将物理或抽象对象的集合分为由类似对象组成的多个聚类的过程，它的目标是在同一聚类中对象的相似度较高，不同聚类中对象不相似。聚类属于一种无监督的学习方法，它是一种通过观察学习的方法，不是示例学习方

　　1、简介

　　聚类分析是数据挖掘的重要组成部分，它是将物理或抽象对象的集合分为由类似对象组成的多个聚类的过程，它的目标是在同一聚类中对象的相似度较高，不同聚类中对象不相似。聚类属于一种无监督的学习方法，它是一种通过观察学习的方法，不是示例学习方法。聚类分析可以发现属性之间所存在的联系，从而找出数据分布的模式。相似性度量是设计聚类算法的基础，在如何定义相似性方面已经有很多研究成果[1-6]，总结起来分为三类：⑴基于特征的方法：对象由一组特征描述，相似性基于对象所共有的特征和差异;⑵几何方法：对象由n维空间中的点描述，相似性基于空间对象的距离的倒数;⑶结构方法：使用图描述，节点表示对象，边表示对象之间的关系，相似性基于图的匹配。由于没有一个算法能够解决所有领域中的聚类问题，我们就需要了解各个算法的特点，以便正确地选择聚类算法和设计算法。对相似性的研究正是为了这一个目的。本文从相似性的角度对常见的聚类算法进行分析和研究，提出相似性有关的问题和今后发展的方向。

　　传统算法中将聚类的对象看作n维空间的一个点(或向量)，两个点之间的相似性是用点之间的距离来度量的。距离本身描述了点之间的相异度。设, , 之间的距离为：。其中是第k个属性的权值，q是一个正数。当属性的地位同等重要(即，k=1,2,…,n)时，该公式就是Minkowski距离. 在Minkowski距离公式中，若q=1，表示Manhattan距离;若q=2，就是欧几里德距离;当q=时，。这些距离满足下面性质：⑴d(x,y)≥0;⑵d(x,x)=0;⑶d(x,y)=d(y,x);⑷d(x,y)≤d(x,z)+d(z,y)。

　　对二元变量来说，如果二元变量取0或1所表示的内容同等重要，对象之间的距离用公式d(x,y)=(r+s)/(q+r+s+t)来计算;若1的取值比0值所表示的情况更加重要，则使用公式d(x,y)=(r+s)/(q+r+s)来计算(Jaccard相关系数)。其中，q表示在对象x和对象y中均取1的二值变量的个数;r表示在对象x中取1而在对象y中取0的二元变量的个数;s表示在对象x中取0而在对象y中取1的二元变量的个数;t表示在对象x和对象y中均取0的二元变量个数。2、聚类算法中的相似性度量分析

　　现有的主要聚类算法可以划分为：划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。2.1 基于划分的聚类方法

　　基于划分方法的基本思想是：根据假定的数据分布，将数据分为K个组，利用循环再定位技术(通过移动不同划分组中的对象)来改变划分的内容，事实上就是用中心、平

转载请注明来自：http://www.qikan2017.com/lunwen/dzi/131.html

上一篇：农村智能调频广播技术
下一篇：浅析电视大片时代纪录片栏目化的探索之路