基于大数据分析方法的微博热点建模与预测
来源:核心期刊咨询网时间:12
摘要:摘 要: 微博热点反映一个社会对某一事件的看法,其受到许多因素的影响,具有一定的规律性,同时具有一定的随机性,数据规模庞大,传统方法无法准确、客观描述,微博热点预测错误大,为此设计基于大数据分析方法的微博热点建模与预测方法。首先对微博热点变
摘 要: 微博热点反映一个社会对某一事件的看法,其受到许多因素的影响,具有一定的规律性,同时具有一定的随机性,数据规模庞大,传统方法无法准确、客观描述,微博热点预测错误大,为此设计基于大数据分析方法的微博热点建模与预测方法。首先对微博热点变化特点进行分析,找到引起微博热点预测错误大的原因,然后收集微博热点历史数据,通过聚类分析选择最优样本点组成训练样本,减少数据的规模,最后引入大数据分析方法建立微博热点预测模型,并与其他微博热点预测方法进行对比测试,所提方法的微博热点预测精度超过95%,预测误差遠小于当前其他微博热点预测方法,而且建模与预测时间明显减少,加快了微博热点建模与预测效率,具有更高的实际应用价值。
关键词: 微博热点分析; 网络管理; 大数据分析; 预测模型; 微博热点建模; 预测效率
推荐阅读:大数据时代的社会学研究
0 引 言
近年来,随着互联网应用的不断深入,网络成为一个多元开放平台,网络上的舆情直接影响人们生活、工作以及社会的稳定。在网络舆情中,微博热点是一种描述社会热点问题突发事件等的观点和建议[1?3]。一些积极的微博热点可以推动社会的前进,另一些负面的微博热点如反动的思想、虚假的信息迅速扩散,会影响社会稳定和人身安全,因此对微博热点的预测及监控成为当前一个重大的研究课题[4?6]。
准确的微博热点建模和预测可以帮助政府对负面事件进行及时控制,维持社会的稳定,相对于一般的博客,微博内容的实时性更强,同时其与移动终端结合,扩散速度更快,传统微博热点建模和预测方法为多元回归分析,多元回归分析从微博热点数据中提取一些特征项,研究特征之间的变化关系,然后建立一种描述特征之间变化关系的数学表达式,从而实现微博热点的预测[7]。但是多元回归分析主要反映特征之间的线性变化关系,实际上微博热点特征之间同时存在着非线性变化关系,这样使得多元回归分析的微博热点预测准确性差。随后提出基于聚类分析的微博热点建模方法,其是一种定量分析方法,聚类分析方法可以对微博热点数据之间的关联性进行挖掘,首先提取微博热点问题中的关键词,并对关键词进行打分,然后对微博热点类别进行划分,该方法只能区别微博热点的类型,对微博热点将来变化的趋势无法预测,因此缺陷十分明显[8]。
随后出现了基于灰色理论的微博热点预测方法、基于神经网络的微博热点预测方法,灰色理论需要的微博热点样本小,预测速度快,但是其微博热点预测误差比较大[9]。神经网络需要的微博热点样本数据多,此时,其微博热点预测精度高;反之,如果微博热点样本数量少,那么预测结果不稳定,而且建模时间比较长[10?11]。随着现代统计学理论的发展,近年来出现了大数据分析方法,通过对问题的原始数据进行分析,然后采用机器学习算法对数据进行分析,找到隐藏在其中的变化规律,在网络流量、电力负荷预测等领域得到了成功的应用[12]。
本文结合微博热点的周期性、随机性、数据规模大等特点,针对当前微博热点建模与预测方法存在的缺陷,提出基于大数据分析方法的微博热点建模与预测方法,并与其他微博热点预测方法进行仿真对比测试,本文方法的微博热点单步预测精度超过95%,多步预测误差也处于实际范围内,相对于当前其他微博热点预测方法,预测误差更小,建模与预测效率得到提升。
1 建模与预测原理
基于大数据分析方法的微博热点建模与预测原理为:首先收集微博热点的相关数据,如历史点击率、回帖数等,然后对数据进行聚类分析,找到与待预测点相关的样本作为训练样本,最后采用极限学习机对训练样本进行学习,并确定极限学习机相关参数,构建微博热点预测模型,并对其性能进行分析,具体如图1所示。
2.1 微博热点数据的聚类分析算法
当前聚类分析的方法很多,如模糊聚类算法、K均值聚类算法等,相对于其他聚类算法,K均值聚类算法的迭代次数少,可以很好地将微博热点原始数据根据聚类中心划分为多种类型,其具体工作步骤为:
Step1:设原始微博热点数据集合为[I={xi,i=1,2,…,n}],共有[K]个类别,它们均有一个聚类中心,即[Zj(I), j=1,2,…,k]。
Step2:根据式(1)计算微博热点样本和每一个聚类中心之间的距离[D(xi,Zj(I))]:
Step3:如果满足条件[D(xi,Zk(I))=min{D(xi,Zj(I))}],则表示样本[xi]属于该类样本集合。
Step4:采用式(2)对聚类结果好坏进行评价。
Step5:如果满足[JC(I)-JC(I-1)<ζ],那么聚类终止,否则迭代次数增加,采用式(3)计算新聚类中心,并转到Step2继续迭代。
经过以上步骤,可以将待预测的微博热点样本划归到相应的微博热点类别中,将该类别中所有的微博热点样本作为训练样本。
2.2 极限学习机的微博热点建模与预测
构建微博热点的训练样本,那么采用极限学习机可以建立如下预测模型:
要建立最优微博热点预测模型,首先要得到权值[βN],根据KKT最优化条件解得:
由于微博热点变化具有非线性、随机性,因此引入满足Mercer′s条件的核矩阵,具体为:
式中[K(xi,xj) ]表示核函数。
由于径向基核函数具有通用性,而且十分简单,因此选择其为[K(xi,xj) ],具体为:
基于极限学习机的微博热点输出结果為:
3 微博热点建模与预测性能的验证
3.1 微博热点原始数据
为了分析大数据分析方法的微博热点建模与预测效果,选择当前一个微博热点话题作为研究对象,其为“公交车抢方向盘事件”,其变化曲线如图2所示,最后200个数据作为验证数据,其他作为训练数据。为了使本文方法的实验说服力更强,选择文献[13?14]的微博热点预测模型进行对比实验。
3.2 微博热点预测结果分析
三种方法的“公交车抢方向盘事件”数据预测结果如图3所示,对“公交车抢方向盘事件”数据预测结果进行分析可知:
1) 文献[13?14]的“公交车抢方向盘事件”数据预测误差大,“公交车抢方向盘事件”数据预测精度低,无法准确描述“公交车抢方向盘事件”数据的随机性变化态势,难以获得理想的微博热点预测效果。
2) 本文方法的“公交车抢方向盘事件”数据预测精度高,预测误差低于文献[13?14]的微博热点预测方法,主要是因为本文方法首先引入了聚类分析对“公交车抢方向盘事件”数据进行处理,选择了最优训练样本,然后引入极限学习机对“公交车抢方向盘事件”的变化特点进行建模,提高了“公交车抢方向盘事件”的预测精度。
统计三种方法的训练和测试时间(单位:ms),结果如表1所示。从表1可知,本文方法的微博热点建模的训练和测试时间更短,这是因为通过引入聚类分析对微博热点样本数据进行预处理,减少了训练样本的规模,加快了聚类分析对微博热点建模速度。
3.3 本文方法的通用性测试
为了分析本文方法的微博热点预测通用性,采用当前9个典型微博热点作为测试对象,预测精度如表2所示。从表2可以看出,本文方法的微博热点预测精度平均值超过了95%,达到了网络舆情监控的要求,具有较好的通用性,但是对比方法的微博热点预测结果不稳定,微博热点平均预测精度低,难以获得较好的微博热点结果预测。
4 结 论
为了解决当前微博热点建模与预测过程中存在的不足,本文提出了基于大数据分析方法的微博热点建模与预测方法,并采用具体数据对其进行测试。通过引入聚类分析对微博热点样本数据进行预处理,选择重要的样本组成训练样本,减少微博热点建模计算复杂度,建模时间大幅度减少,解决了当前方法对大规模微博热点数据建模效率低的缺陷。通过引入极限学习机对微博热点样本数据的周期性、随机性变化特点进行拟合,全面描述微博热点的发展趋势,使得微博热点的预测精度得到提高,微博热点的预测误差变小,充分说明了本文方法的微博热点预测效果要优于当前微博热点的建模与预测方法,解决了当前方法微博热点预测误差大的缺陷。本文方法是一种预测精度高、速度快的微博热点建模方法,同时为其他具有相似变化特点的问题提供了一种建模预测思想,具有广泛的应用前景。
参考文献
[1] 孙念,李玉强,刘爱华,等.基于松散条件下协同学习的中文微博情感分析[J].浙江大学学报(工学版),2018,52(8):1452?1460.
转载请注明来自:http://www.qikan2017.com/lunwen/dzi/15043.html
相关论文阅读
- 2022-09-28创新要素对涉农科技型企业发展质量的影响
- 2022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 2022-07-14多媒体计算机技术在广播电视工程中的应用
- 2022-07-12高校教务管理信息化的优势及发展趋势
- 2022-07-04探讨光伏发电技术中分布式控制的有效应用
- 2022-07-02计算机通信网络安全维护措施研究
- 2022-06-30在线实训教学模式在电子商务教学中的应用研究
- 2022-06-25低代码数据接口开发架构的研究与实现
- 2022-06-24区块链技术对审计模式优化的探索
- 2022-05-28云网安全防护运维管控的研究
期刊论文问答区
- 2025-05-13教师职称评审级别及所需学术成果材料
- 2025-04-24英文期刊发表论文几个版面起发
- 2025-01-21论文顺利通过审稿的8个操作
- 2025-01-11管理学类30本期刊(国自然基金委员会认定)
- 2025-01-02电刺激治疗相关文章选题推荐
- 2024-12-17植物学比较热门的论文选题
- 2024-12-03人事管理方面文章选题推荐和发表期刊
- 2024-11-18金融学专业的论文选题方向推荐
- 2024-11-01教育核心期刊有哪些
- 2024-07-12学术论文初审是谁在审?审什么?审多久?
电子信息优质期刊
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3省级《工程技术研究》
- 4核心级《无线电通信技术》
- 5省级《常州工学院学报》
- 6省级《计算力学学报》
- 7核心级《电子技术与软件工程》
- 8省级《天津大学学报:自然科学与工程技术版》
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3国家级《机电元件》
- 4国家级《中国电子科学研究院学报》
- 5国家级《电子科学学刊:英文版》
- 6国家级《材料科学技术学报:英文版》
- 7国家级《电光与控制 》
- 8国家级《测绘学报》
- 1省级《工程技术研究》
- 2省级《常州工学院学报》
- 3省级《计算力学学报》
- 4省级《天津大学学报:自然科学与工程技术版》
- 5省级《福建电脑》
- 6省级《计算机技术与发展》
- 7省级《深圳大学学报:理工版》
- 8省级《测绘科学与工程》
- 1核心级《无线电通信技术》
- 2核心级《电子技术与软件工程》
- 3核心级《润滑与密封》
- 4核心级《计算机应用与软件》
- 5核心级《电讯技术》
- 6核心级《固体电子学研究与进展》
- 7核心级《自动化学报》
- 8核心级《内蒙古大学学报:自然科学版》
最新期刊更新
- 《中国政府采购》
- 《中国政府采购》
- 《农业图书情报学刊》
- 《农业技术经济》
- 《水文地质工程地质》
- 《房地产世界》
- 《中央民族大学学报:哲》
- 《广州化学》
- 《物理学报》
- 《东方宝宝》
- 《新能源进展》
- 《热带农业科学》
- 《建筑经济》
- 《中国学校卫生》
精品推荐
- 12022-09-28创新要素对涉农科技型企业发展质量的影响
- 22022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 32022-07-14多媒体计算机技术在广播电视工程中的应用
- 42022-07-12高校教务管理信息化的优势及发展趋势
- 52022-07-04探讨光伏发电技术中分布式控制的有效应用
- 62022-07-02计算机通信网络安全维护措施研究
- 72022-06-30在线实训教学模式在电子商务教学中的应用研究
- 82022-06-25低代码数据接口开发架构的研究与实现
- 12018-05-06机器人研究方向有哪些核心期刊比较好投
- 22017-09-07国内电气工程方面的普刊有哪些?
- 32018-03-02电气审稿较快的期刊
- 42022-02-26人工智能在财会领域的运用与应对策略
- 52021-11-17港口码头系统智能化应用的现状与发展
- 62022-02-26电气工程及其自动化技术在电力系统中的应用分析
- 72022-03-01数据管理视角下的内控信息化建设
- 82022-06-30在线实训教学模式在电子商务教学中的应用研究
- 12025-05-13教师职称评审级别及所需学术成果材料
- 22025-05-08人力资源专业论文发ssci
- 32025-05-08评职称著作合著快还是独著快
- 42025-04-24英文期刊发表论文几个版面起发
- 52025-04-24声音与振动杂志JOURNAL OF SOUND AND VIBRATION期刊收稿方向
- 62025-02-12“互联网+”时代的农产品营销与农业经济发展
- 72025-02-12羊肉消费市场调研
- 82025-02-12文创产品营销策略
- 12021-05-24刊号字母G、G0、G1、G2、G3、G4、G8是什么意思
- 22021-05-06论文引用率不能超过多少
- 32018-09-11语法翻译法的运用以及优缺点分析
- 42020-03-08发表在期刊上的论文一般多少字
- 52020-09-21疾控中心工作怎么评职称
- 62020-01-03新北大核心什么时候更新,几年更新一次
- 72020-03-08通讯作者和二作哪个含金量比较高
- 82021-02-23发表的期刊论文见刊的时候可以在知网查到吗