相似性度量对聚类性能的影响
来源:核心期刊咨询网时间:12
摘要:1、简介 聚类分析是数据挖掘的重要组成部分,它是将物理或抽象对象的集合分为由类似对象组成的多个聚类的过程,它的目标是在同一聚类中对象的相似度较高,不同聚类中对象不相似。聚类属于一种无监督的学习方法,它是一种通过观察学习的方法,不是示例学习方
1、简介
聚类分析是数据挖掘的重要组成部分,它是将物理或抽象对象的集合分为由类似对象组成的多个聚类的过程,它的目标是在同一聚类中对象的相似度较高,不同聚类中对象不相似。聚类属于一种无监督的学习方法,它是一种通过观察学习的方法,不是示例学习方法。聚类分析可以发现属性之间所存在的联系,从而找出数据分布的模式。相似性度量是设计聚类算法的基础,在如何定义相似性方面已经有很多研究成果[1-6],总结起来分为三类:⑴基于特征的方法:对象由一组特征描述,相似性基于对象所共有的特征和差异;⑵几何方法:对象由n维空间中的点描述,相似性基于空间对象的距离的倒数;⑶结构方法:使用图描述,节点表示对象,边表示对象之间的关系,相似性基于图的匹配。由于没有一个算法能够解决所有领域中的聚类问题,我们就需要了解各个算法的特点,以便正确地选择聚类算法和设计算法。对相似性的研究正是为了这一个目的。本文从相似性的角度对常见的聚类算法进行分析和研究,提出相似性有关的问题和今后发展的方向。
传统算法中将聚类的对象看作n维空间的一个点(或向量),两个点之间的相似性是用点之间的距离来度量的。距离本身描述了点之间的相异度。设, , 之间的距离为:。其中是第k个属性的权值,q是一个正数。当属性的地位同等重要(即,k=1,2,…,n)时,该公式就是Minkowski距离. 在Minkowski距离公式中,若q=1,表示Manhattan距离;若q=2,就是欧几里德距离;当q=时,。这些距离满足下面性质:⑴d(x,y)≥0;⑵d(x,x)=0;⑶d(x,y)=d(y,x);⑷d(x,y)≤d(x,z)+d(z,y)。
对二元变量来说,如果二元变量取0或1所表示的内容同等重要,对象之间的距离用公式d(x,y)=(r+s)/(q+r+s+t)来计算;若1的取值比0值所表示的情况更加重要,则使用公式d(x,y)=(r+s)/(q+r+s)来计算(Jaccard相关系数)。其中,q表示在对象x和对象y中均取1的二值变量的个数;r表示在对象x中取1而在对象y中取0的二元变量的个数;s表示在对象x中取0而在对象y中取1的二元变量的个数;t表示在对象x和对象y中均取0的二元变量个数。2、聚类算法中的相似性度量分析
现有的主要聚类算法可以划分为:划分方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。2.1 基于划分的聚类方法
基于划分方法的基本思想是:根据假定的数据分布,将数据分为K个组,利用循环再定位技术(通过移动不同划分组中的对象)来改变划分的内容,事实上就是用中心、平
转载请注明来自:http://www.qikan2017.com/lunwen/dzi/131.html
相关论文阅读
- 2025-06-23段威团队在《中兴通讯技术》发表智算中心网络技术发展与应用论文
- 2025-06-23姜东虹团队在《中兴通讯技术》发表存储高效的 IPv6 路由查找方法论文
- 2022-09-28创新要素对涉农科技型企业发展质量的影响
- 2022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 2022-07-14多媒体计算机技术在广播电视工程中的应用
- 2022-07-12高校教务管理信息化的优势及发展趋势
- 2022-07-04探讨光伏发电技术中分布式控制的有效应用
- 2022-07-02计算机通信网络安全维护措施研究
- 2022-06-30在线实训教学模式在电子商务教学中的应用研究
- 2022-06-25低代码数据接口开发架构的研究与实现
期刊论文问答区
- 2025-06-16核心期刊多久能收到录用通知
- 2025-05-19《安徽农业大学学报》10年内发表论文数据,选择与投稿前可参考
- 2025-05-19发论文时国际期刊和国内期刊选择对比
- 2025-05-13教师职称评审级别及所需学术成果材料
- 2025-04-24英文期刊发表论文几个版面起发
- 2025-01-21论文顺利通过审稿的8个操作
- 2025-01-11管理学类30本期刊(国自然基金委员会认定)
- 2025-01-02电刺激治疗相关文章选题推荐
- 2024-12-17植物学比较热门的论文选题
- 2024-12-03人事管理方面文章选题推荐和发表期刊
电子信息优质期刊
- 1国家级《计算机与网络》
- 2省级《工程技术研究》
- 3国家级《解放军理论学习》
- 4核心级《无线电通信技术》
- 5省级《常州工学院学报》
- 6省级《计算力学学报》
- 7核心级《电子技术与软件工程》
- 8省级《天津大学学报:自然科学与工程技术版》
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3国家级《机电元件》
- 4国家级《中国电子科学研究院学报》
- 5国家级《电子科学学刊:英文版》
- 6国家级《材料科学技术学报:英文版》
- 7国家级《电光与控制 》
- 8国家级《测绘学报》
- 1省级《工程技术研究》
- 2省级《常州工学院学报》
- 3省级《计算力学学报》
- 4省级《天津大学学报:自然科学与工程技术版》
- 5省级《福建电脑》
- 6省级《计算机技术与发展》
- 7省级《深圳大学学报:理工版》
- 8省级《测绘科学与工程》
- 1核心级《无线电通信技术》
- 2核心级《电子技术与软件工程》
- 3核心级《润滑与密封》
- 4核心级《计算机应用与软件》
- 5核心级《电讯技术》
- 6核心级《固体电子学研究与进展》
- 7核心级《自动化学报》
- 8核心级《内蒙古大学学报:自然科学版》
最新期刊更新
- 《中兴通讯技术》
- 《中国政府采购》
- 《中国政府采购》
- 《农业图书情报学刊》
- 《农业技术经济》
- 《水文地质工程地质》
- 《房地产世界》
- 《中央民族大学学报:哲》
- 《广州化学》
- 《物理学报》
- 《东方宝宝》
- 《新能源进展》
- 《热带农业科学》
- 《建筑经济》
精品推荐
- 12025-06-23段威团队在《中兴通讯技术》发表智算中心网络技术发展与应用论文
- 22025-06-23姜东虹团队在《中兴通讯技术》发表存储高效的 IPv6 路由查找方法论文
- 32022-09-28创新要素对涉农科技型企业发展质量的影响
- 42022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 52022-07-14多媒体计算机技术在广播电视工程中的应用
- 62022-07-12高校教务管理信息化的优势及发展趋势
- 72022-07-04探讨光伏发电技术中分布式控制的有效应用
- 82022-07-02计算机通信网络安全维护措施研究
- 12018-05-06机器人研究方向有哪些核心期刊比较好投
- 22017-09-07国内电气工程方面的普刊有哪些?
- 32018-03-02电气审稿较快的期刊
- 42022-02-26人工智能在财会领域的运用与应对策略
- 52022-03-01数据管理视角下的内控信息化建设
- 62021-11-17港口码头系统智能化应用的现状与发展
- 72022-02-26电气工程及其自动化技术在电力系统中的应用分析
- 82022-06-30在线实训教学模式在电子商务教学中的应用研究
- 12025-07-14上海中医药大学张洁团队在《中医杂志》发表早期糖尿病肾病治疗相关论文
- 22025-07-14教材参编算是第几作者
- 32025-07-10徐蕊团队在《中医杂志》发表论文 提出中国现代美好生活健康状态多维度评价体系
- 42025-07-10专著第二作者评职称有用吗
- 52025-06-26贺方良团队在《中药材》发表《防风色度值与内在成分相关性研究》论文
- 62025-06-26徐伶俐团队在《中药材》发表《滇黄精化学成分的研究》论文
- 72025-06-23ei会议论文与核心论文哪个价值高
- 82025-06-23段威团队在《中兴通讯技术》发表智算中心网络技术发展与应用论文
- 12021-05-24刊号字母G、G0、G1、G2、G3、G4、G8是什么意思
- 22021-05-06论文引用率不能超过多少
- 32018-09-11语法翻译法的运用以及优缺点分析
- 42020-03-08发表在期刊上的论文一般多少字
- 52020-09-21疾控中心工作怎么评职称
- 62020-01-03新北大核心什么时候更新,几年更新一次
- 72020-03-08通讯作者和二作哪个含金量比较高
- 82021-02-23发表的期刊论文见刊的时候可以在知网查到吗