基于信息熵的粗糙集属性应急数据去重挖掘算法研究
来源:核心期刊咨询网时间:2022-01-11 14:4512
摘要:摘 要:主动学习已经被证明是一种成功的机器学习算法,最主要的缺點是它只注重样本的标签信息而忽略了样本的分布信息。因此带来的后果就是稳定性差,容易陷入局部最优解,同时对初始样本的选择非常敏感。论文将稀疏子空间聚类与主动学习相结合,首先利用稀疏子空间聚类
摘 要:主动学习已经被证明是一种成功的机器学习算法,最主要的缺點是它只注重样本的标签信息而忽略了样本的分布信息。因此带来的后果就是稳定性差,容易陷入局部最优解,同时对初始样本的选择非常敏感。论文将稀疏子空间聚类与主动学习相结合,首先利用稀疏子空间聚类找到原始数据的分布信息,然后利用该信息指导主动学习选取初始样本,使样本标注更加有效,提高了主动学习的效率,同时降低了主动学习对初始样本的敏感度。最后通过多组仿真实验证明,本方法可以有效的改善主动学习的性能。
关键词:主动学习;稀疏子空间;聚类
主动学习作为一种成功的机器学习,已经广泛的应用于生物、医学和材料等领域。例如研究细胞蛋白质的相互作用,通过实验验证的代价非常大,利用主动学习,可以在有限的样本基础上进行训练,然后有效的预测蛋白质间是否具有相互作用,从而大大降低了实验代价。
但是传统的主动学习对初始值比较敏感。选择不同的样本作为初始样本集,最终通过学习得到的分类模型可能会有很大的差异。有的效果非常好,有的虽然经过多次的迭代但效果仍然很差,表现很不稳定。导致这种现象的一个主要原因是,主动学习在选择样本时没有考虑数据集本身的结构分布特点。
主动学习要进行第一次迭代之前,需要建立一个初始分类模型,用于选择信息含量最大的样本。所以,传统的主动学习在迭代之前,首先要随机选取一定量无标签样本,提交给专家标注。这些标注好的样本就构成了初始有标签样本集L(0)。在实际应用中,要选择合适的L(0)非常困难,为了降低主动学习对初值的敏感性,增强主动学习的鲁棒性,许多学者提出了一些降低对初始值敏感程度的主动学习方法。2012年Swarnajyoti等人提出了一种基于预聚类的主动学习方法SPLB[1][2]。SPLB算法与传统的主动学习方法不同,它优先选取稀疏区域的样本进行标注。实验证明,该方法可以提高样本的使用效率,加快了主动学习的收敛速度。但是上述算法仍存在问题,该算法只能处理简单、线性可分的数据集,没有考虑到现实生活中大量高维非线性数据集的情况,处理复杂数据集的效果并不理想。
受上述思想的启发,结合稀疏子空间算法的优点,提出了一种改进的主动学习算法,同时结合了样本的标签信息和分布信息。首先在迭代之前,采用基于稀疏子空间聚类,找到嵌入高维空间的低维结构,并利用此结构信息来指导主动学习选择需要标注的样本,提高标记样本的利用率。同时,由于掌握了数据集的整体分布信息,降低了陷入局部最优的概率,提高了主动学习的效率。
1 稀疏子空间聚类
稀疏子空间聚类[3]是近几年来研究热点,它的主要思想是现实生活中的高维空间,由于数据间存在的内在联系,在本质上是属于多个低维子空间并集,可以用低维空间的线性组合来表达,这种线性表达还可以用来刻画不同低维子空间的相似度。然后利用拉普拉斯特征映射根据相似度矩阵进行聚类。
2 稀疏子空间聚类与主动学习的结合
本节的核心是将稀疏子空间聚类和主动学习结合在一起。为了最大限度的降低主动学习中标注样本的代价,我们需要尽量挖掘主动学习中各部分的信息。本节的核心就是挖掘无标签样本的结构信息,为主动学习的初始化提供指导,从而提高主动学习的效率和效果。
在主动学习的初始化阶段,先用稀疏子空间聚类找到原始数据集的子空间结构,然后对子空间进行聚类,再挑选到两个聚类中心距离差最小的样本来标记,作为主动学习的初始样本集。由于利用了数据集的结构信息,因此能有效的找到全局最优解。
下面以主动学习中最常用的SVM算法为例,处理二分类问题。具体的算法如下表1所示:
3 算法有效性验证
为了评估论文算法的性能,作者在不同的标准数据集上进行了对比仿真实验。论文所需的数据都是来自公开数据集LIBSVM[5]。为了测试论文算法的有效性,文中与多种学习算法进行比较:
Passive:被动学习支持向量机:该方法在每次迭代时,随机选取k个样本进行标注,并用来更新模型。
ALSVM:传统的主动学习支持向量机算法:该方法选择k个不确定性最强的样本进行标注,作为支持向量来更新模型。
SPLB:由Swarnajyoti等人提出的方法。在主动学习迭代之前,先对数据集进行预聚类处理,然后在数据稀疏的区域建立初始分类超平面。该算法与文中算法类似,因此作为文中算法的主要比较对象。
Proposed:基于稀疏子空间聚类的主动学习算法。
3.1 USPS数据集验证
为了验证基于稀疏子空间的拉普拉斯特征映射算法的有效性,将该算法应用到目前比较流行的公开数据集LIBSVM。以其中的USPS数据集为例,通过这个数据集来仿真验证论文算法的效果。
USPS是一个被广泛使用的手写字符识别数据集,里面包含七千多个数字字符(数字0-数字9)。
为了构成一个二分类的问题,本次实验随机选取一个数字6来进行验证。为了构成能使用支持向量机处理的二分类问题,将数字6的类别标签设为+1,其余的图片样本标签设为-1。这种策略经常用来处理多分类问题。
支持向量机超参数C=100,高斯核的超参数γ=0.01。
实验选择10个样本作为初始有标签样本,每次迭代20次。同时,为了进一步验证论文算法的效果,排除随机噪声干扰,作者进行了100次重复实验,最终将每次迭代的实验结果取平均值。
下图2是USPS中将数字6与其他手写数字进行分类的效果:
从上图2可以看出,利用作者提出的基于稀疏子空间的拉普拉斯特征映射算法的准确率要高于传统的主动学习算法,最终的误分率比传统算法的低了50%左右。该算法也优于SPLB算法。SPLB方法在支持向量机的输出空间中寻找稀疏区域,而在主动学习的前期,支持向量机的分类精度比较低,所以数据在输出空间的分布并不能完整反映整个数据集的分布情况。而作者的算法是根据流形假设,建立在图论中的谱图理论的基础上的,其本质是将聚类问题转化为图的最优划分问题,因此,比简单的聚类效果更好。所以该算法有效的提高了主动学习的效率,同时改善了主动学习算法的鲁棒性。
转载请注明来自:http://www.qikan2017.com/lunwen/dzi/22351.html
相关论文阅读
- 2022-09-28创新要素对涉农科技型企业发展质量的影响
- 2022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 2022-07-14多媒体计算机技术在广播电视工程中的应用
- 2022-07-12高校教务管理信息化的优势及发展趋势
- 2022-07-04探讨光伏发电技术中分布式控制的有效应用
- 2022-07-02计算机通信网络安全维护措施研究
- 2022-06-30在线实训教学模式在电子商务教学中的应用研究
- 2022-06-25低代码数据接口开发架构的研究与实现
- 2022-06-24区块链技术对审计模式优化的探索
- 2022-05-28云网安全防护运维管控的研究
期刊论文问答区
- 2025-01-21论文顺利通过审稿的8个操作
- 2025-01-11管理学类30本期刊(国自然基金委员会认定)
- 2025-01-02电刺激治疗相关文章选题推荐
- 2024-12-17植物学比较热门的论文选题
- 2024-12-03人事管理方面文章选题推荐和发表期刊
- 2024-11-18金融学专业的论文选题方向推荐
- 2024-11-01教育核心期刊有哪些
- 2024-07-12学术论文初审是谁在审?审什么?审多久?
- 2024-07-02管理学cssci期刊目录(36本)
- 2024-06-12医生评职称高水平的学术成果
电子信息优质期刊
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3省级《工程技术研究》
- 4核心级《无线电通信技术》
- 5省级《常州工学院学报》
- 6省级《计算力学学报》
- 7核心级《电子技术与软件工程》
- 8省级《天津大学学报:自然科学与工程技术版》
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3国家级《机电元件》
- 4国家级《中国电子科学研究院学报》
- 5国家级《电子科学学刊:英文版》
- 6国家级《材料科学技术学报:英文版》
- 7国家级《电光与控制 》
- 8国家级《测绘学报》
- 1省级《工程技术研究》
- 2省级《常州工学院学报》
- 3省级《计算力学学报》
- 4省级《天津大学学报:自然科学与工程技术版》
- 5省级《福建电脑》
- 6省级《计算机技术与发展》
- 7省级《深圳大学学报:理工版》
- 8省级《测绘科学与工程》
- 1核心级《无线电通信技术》
- 2核心级《电子技术与软件工程》
- 3核心级《润滑与密封》
- 4核心级《计算机应用与软件》
- 5核心级《电讯技术》
- 6核心级《固体电子学研究与进展》
- 7核心级《自动化学报》
- 8核心级《华东电力》
最新期刊更新
- 《中国政府采购》
- 《中国政府采购》
- 《农业图书情报学刊》
- 《农业技术经济》
- 《水文地质工程地质》
- 《房地产世界》
- 《中央民族大学学报:哲》
- 《广州化学》
- 《物理学报》
- 《东方宝宝》
- 《新能源进展》
- 《热带农业科学》
- 《建筑经济》
- 《中国学校卫生》
精品推荐
- 12022-09-28创新要素对涉农科技型企业发展质量的影响
- 22022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 32022-07-14多媒体计算机技术在广播电视工程中的应用
- 42022-07-12高校教务管理信息化的优势及发展趋势
- 52022-07-04探讨光伏发电技术中分布式控制的有效应用
- 62022-07-02计算机通信网络安全维护措施研究
- 72022-06-30在线实训教学模式在电子商务教学中的应用研究
- 82022-06-25低代码数据接口开发架构的研究与实现
- 12018-05-06机器人研究方向有哪些核心期刊比较好投
- 22017-09-07国内电气工程方面的普刊有哪些?
- 32018-03-02电气审稿较快的期刊
- 42022-02-26人工智能在财会领域的运用与应对策略
- 52021-11-17港口码头系统智能化应用的现状与发展
- 62022-02-26电气工程及其自动化技术在电力系统中的应用分析
- 72022-06-30在线实训教学模式在电子商务教学中的应用研究
- 82022-03-01数据管理视角下的内控信息化建设
- 12025-01-21论文顺利通过审稿的8个操作
- 22025-01-15经济学英文论文好发的期刊《Energy Economics》
- 32025-01-11管理学类30本期刊(国自然基金委员会认定)
- 42025-01-02电刺激治疗相关文章选题推荐
- 52024-12-17植物学比较热门的论文选题
- 62024-12-11纯生信文章能投的期刊
- 72024-12-03人事管理方面文章选题推荐和发表期刊
- 82024-11-18金融学专业的论文选题方向推荐
- 12021-05-24刊号字母G、G0、G1、G2、G3、G4、G8是什么意思
- 22021-05-06论文引用率不能超过多少
- 32018-09-11语法翻译法的运用以及优缺点分析
- 42020-03-08发表在期刊上的论文一般多少字
- 52020-09-21疾控中心工作怎么评职称
- 62020-01-03新北大核心什么时候更新,几年更新一次
- 72020-03-08通讯作者和二作哪个含金量比较高
- 82021-02-23发表的期刊论文见刊的时候可以在知网查到吗