高端学术
您当前的位置:核心期刊咨询网电子信息论文》面向突发事件应急管理的情感词典构建

面向突发事件应急管理的情感词典构建

来源:核心期刊咨询网时间:12

摘要:摘 要: 在复杂的网络舆论生态中,突发事件中的舆情发展更具多变性和难以预测性,通用情感词典已难以适应当前突发事件文本情感分析的需要,建立面向突发事件应急管理的专业情感词典,对于提升网民情感分析的准确度和及时把握舆情走向具有重要意义。据此,采

  摘 要: 在复杂的网络舆论生态中,突发事件中的舆情发展更具多变性和难以预测性,通用情感词典已难以适应当前突发事件文本情感分析的需要,建立面向突发事件应急管理的专业情感词典,对于提升网民情感分析的准确度和及时把握舆情走向具有重要意义。据此,采用机器采集加人工构建的方式,以近5年的10起暴雨洪涝灾害的微博评论文本为语料,建立“突发事件·暴雨洪涝”情感词典。经检验发现,该词典显著提高了暴雨洪涝文本情感分析的正确率和召回率,为突发事件的应急管理提供了更为精确和可操作的决策基础。

  关键词: 突发事件; 应急管理; 情感词典; 暴雨洪涝; 网络舆情

互联网经济

  推荐阅读:互联网经济杂志(月刊)于2014年创刊,本刊坚持为社会主义服务的方向,坚持以马克思列宁主义、毛泽东思想和邓小平理论为指导。

  一、 研究背景

  互联网的快速发展和社交媒体的广泛应用给突发事件的应急管理带来极大挑战。新媒体环境下,信息的传播呈现出“病毒式”扩散的特点,突发事件在网上被曝光后,影响力迅速呈现指数增长。在此背景下,传统分散式、简单化的突发事件应急管理系统面临极大挑战。合理运用文本情感分析技术,透过网上的海量文本数据准确分析网络舆情走向,及时疏导网民情绪成为突发事件应急管理的关键。

  文本情感分析的方法多种多样,其中情感词典作为分析过程中的重要工具,其准确性和覆盖率会在很大程度上影响分析效果[1]。目前中文情感词典多为通用情感词典,在对特定专业领域的文本进行情感分析时,准确率并不高,特别是在面对某一特定领域内的突发事件时,文本分析效果不佳。因此,针对不同类型的突发事件建立专业领域的情感词典对于提升突发事件的应急管理效果具有重要的现实意义。本文尝试采用机器采集加人工构建的方式,以突发事件中的“暴雨洪涝”灾害为例,探索突发事件中情感词典的构建路径。

  二、 文献回顾

  (一) 不同路径的文本情感分析研究

  文本情感分析,即对于情绪文本内容的语义分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[2]。目前进行文本情感分析的路径多样。按照文本内容,可分为基于商品评论的文本情感分析和基于舆情的文本情感分析;按照文本粒度,可分为词语级、语句级和篇章级的文本情感分析;按照分析方法,可分为基于机器学习和基于语义分析的文本情感分析,这也是最常见的分类方法[3]。

  基于机器学习的方法是将情感分析问题看作是一个分类问题,用标注好的训练集来训练机器学习算法得到分类模型,用于以后的情感分类[4]。这类分析主要通过两种方式来实现,一种是有监督的机器学习法,这种方法使用机器学习的模型,用已标注的训练数据训练出一个较好的模型,利用这个模型来预测文本的情感极性。机器学习模型包括支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes,NB)、最大熵(Maximum Entropy,ME)等[5]。另一种是无监督的方法,这种方法被称为文本聚类(Clustering),即按照某种准则对文本集合进行组织或划分,使得相似的文本划分到同一簇中,差异较大的文本划分到不同簇中。[6]

  基于语义的方法主要利用情感词典及句式词库分析文本语句的特殊结构及情感倾向词,采用权值算法进行情感分类[7]。比如杨超在HowNet和NTUSD两种词典的基础上进行拓展,建立了一个新的、具有倾向程度的词典,开发了一个半自动化舆情分析系统,提供细致、准确的评论倾向性分析[8]。相比基于机器学习的方法,基于语义的方法更符合突发事件文本情感分析中快速、准确的要求。首先,基于语义的方法不需要对大量语料进行标注,只要有合适完备的情感词典,采用简单快速的方法就能得到较好的文本情感分析效果[9],这能在很大程度上节约时间,提高突发事件应急管理的反应效率;其次,基于语义的文本情感分析更稳定,随着测试语料的增加,基于情感词典的分类性能保持稳定,并优于机器学习法[10]。

  在基于语义的方法中,丰富且准确的情感词典是提高分析准确性的关键[1]。目前国内能运用的中文词典资源非常有限,主要有知网(HowNet)、LIWC(Linguistic Inquiry and Word Count)和中文情感词汇本体库(DUTIR)。这些情感词典都是通用词典,在分析专业性文本的时候容易出现偏差,特别是遇到跨领域歧义词汇和专业情感词汇时分析效果不佳。因此,构建起一套突发事件专业词典对于提高突发事件中网络情感文本分析的效果,从而更有针对性地开展应急管理具有重要意义。

  (二) 情感词典的构建方法

  情感词典,顾名思义就是由带有褒义或者贬义色彩的情感词汇组成的一个词典[11],主要应用于基于语义的文本情感分析研究中。构建情感词典主要有两类方法,自动构建和人工构建。

  情感词典的自动构建方法主要有三种:一是基于知识库,通过完备的开放的语义知识库(如英文的wordnet),挖掘其中各个词语之间的关系,用词关系拓展、迭代路径和释义拓展等方法构建情感词典。二是基于语料库,通过对某特定领域的大量语料进行分析,比如通过语料中各连词的特性判断前后两个形容词之间相似程度,来构建情感词典。三是基于知识库与语料库结合的方法,组合的方法多种多样,比如根据词与词之间的相似关系构建词间关系图,然后利用已知词性的情感词,推测其他情感词的极性。或者先利用少量標注词确定文本片段的极性,再结合抽取结果,继续判断未知文本片段的情感[1]。

  人工构建的方法主要有两种形式,一种是直接根据语料文本来人工构建新词典。比如唐超在研究网络情绪的演进时,首先利用爬虫软件抓取网上的评论文本,在完成文本清洗后,邀请专家对文本中的情绪关键词进行提取和标注,然后采用主成分分析法提取出主要网络情绪关键词,最后由专家对这些网络情绪关键词进行赋值,构建网络情绪词典[12]。另一种是结合语料文本,在现有情感词典的基础上人工进行拓展,构建新词典。比如中文版的LIWC词典是由黄金兰等人以英文版的LIWC2007词典为蓝本,进行翻译和同义词添加后,由研究小组集体讨论,人工拓展修改而成[13]。

转载请注明来自:http://www.qikan2017.com/lunwen/dzi/14815.html

相关论文阅读

论文发表技巧

期刊论文问答区

电子信息优质期刊

最新期刊更新

精品推荐