高端学术
您当前的位置:核心期刊咨询网文史艺术论文》基于分层最大边缘相关的柬语多文档抽取式摘要方法

基于分层最大边缘相关的柬语多文档抽取式摘要方法

来源:核心期刊咨询网时间:2021-01-25 10:5712

摘要:摘 要:为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;

  摘 要:为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;然后,依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过改进的最大边缘相关算法合理地选择摘要句,得到最终的多文档摘要。结果表明,与其他方法相比,通过使用深度学习方法并结合分层最大边缘相关算法共同获得的柬语多文档摘要,R1,R2,R3和RL值分别提高了4.31%,5.33%,6.45%和4.26%。基于分层最大边缘相关的柬语多文档抽取式摘要方法在保证摘要句子多样性和差异性的同时,有效提高了柬语多文档摘要的质量。

  关键词: 自然语言处理;柬语;抽取式摘要;深度学习;瀑布法;最大边缘相关

自然语言处理

  随着“一带一路”倡议的实施,中国和柬埔寨作为重要的双边贸易国家和友好合作伙伴,交流与往来日益增加,有关柬埔寨语(简称柬语,下同)的自然语言处理技术[1]研究变得尤为重要。随着互联网技术的发展、信息的增加以及传播和交互速度的迅速加快,人们对互联网的需求正在发生变化[2]。如何从大量冗余信息中快速得到主要内容已成为当前研究的热点。简短的摘要可以帮助人们快速获取信息,加快信息传播速度。根据待观察文档数量的多少,可以将文檔摘要的形式分为单文档摘要[3]和多文档摘要[4]。前者是对一个文档内容进行提取生成一篇摘要,后者是从一个话题下的多篇相关文档中生成一篇摘要。单文档摘要技术主要面向单个文档,随着时代的发展,多文档摘要技术逐渐得到重视。迄今为止,已经有很多方法被应用到多文档摘要技术中,主要分为基于特征的方法、基于聚类的方法、基于图模型的方法和基于深度学习的方法。

  基于特征的方法即对语料进行特征构造,转化为句子排序问题,依据句子的重要性挑选摘要句,组合形成摘要。常用的句子特征如句子位置、句子长度、线索词等[5]。常用于基于特征的多文档摘要方法还有基于中心性(Centrality)[6]相关方法,其是在识别输入源中心通道的基础上检测出最显著的信息,用于生成通用的摘要;而基于覆盖率(Coverage)[7]的方法则产生由单词、主题、时间驱动的摘要。基于特征的多文档摘要方法虽然已得到广泛研究,但该方法无法理解文档的上下文信息,仅在句子级别对句子进行评分。

  基于聚类的方法即将句子集进行归类。尽管多文档包含多个主题且各文档内容通常有所不同,但是通过聚类方法可以提取出在聚类簇中表达主题信息的句子形成摘要[8]。RADEV等[9]提出了基于质心代表文档集合的逻辑主题的抽取式摘要方法;MCKEOWN等[10]开发了基于片断聚类方法的多文档摘要系统MultiGen,识别出不同文件间的相似之处和不同之处,通过语义相似度提取主题,从主题中抽取交集作为关键词,生成连贯的摘要。但是,基于聚类的方法需要事先知道聚类的类别数。

  基于图模型的方法广泛用于多文档摘要任务中,把诸如句子和段落之类的文本单元集成到基于图的结构中,使用类似投票机制提取文本摘要[11]。典型的图模型为PageRank算法[12], 初始时为每个页面分配相同的重要性评分,根据算法迭代更新每个页面的PageRank评分,直至评分稳定。TextRank是在PageRank算法基础上,对每个词节点附上权值,构建关于词的无向带权图,建立图模型,利用投票机制对文本的重要成分进行排序,生成摘要[13]。YASUNAGA等[14]提出了GCN(graph convolutional network)模型,将句子关系图融入到神经网络模型中,得到句子的重要性,利用依此产生的句子高维表征,通过重要性估计提取摘要句。

  基于深度学习的方法即利用深度学习训练出词、句子等级别具有上下文信息、语义关系的表征,以便更好地生成摘要[15]。CAO等[16]针对基于查询的多文档摘要任务,提出了AttSum模型,采用联合学习的方法结合卷积神经网络和注意力机制对句子进行建模表示,能够有效学习到文档主旨和摘要句子之间的相关性;NALLAPATI等[17]提出了基于循环神经网络的SummaRuNNer模型,从文本的重要性和新颖性等角度出发,解释文本摘要的生成过程;NARAYAN等[18]利用基于Encoder-Decoder框架的分层文档编码器和基于注意力的解码器结构,结合附带信息的关注来更好地选择摘要句。但是单纯的基于深度学习的方法需要大量数据对模型进行训练。

  目前柬语自然语言处理研究的基础较为薄弱,且主要集中在命名实体识别与可比语料方面,关于多文档摘要方面的研究十分稀少,领域专家人工标注的代价十分昂贵,柬语多文档摘要语料较为匮乏。已有多文档抽取式摘要方法大多使用的是有监督的学习方法,不太适用于柬语多文档摘要。本文利用无监督学习方法,在不依赖任何标注数据的情况下,通过对多文档内在特征的挖掘,找到文档间的关系,使用类似瀑布分层的方式,结合改进的最大边缘相关算法MMR[19],基于句子特征的5种评估方法的综合得分决定摘要句的重要性,依据ROUGE-L[20]召回率评估候选摘要句与已选摘要句之间内容的冗余关系,迭代合并通过深度学习模型得到的单文档摘要集,有效提高柬语多文档摘要的质量,保证摘要结果的多样性和差异性。

  1 多文档抽取式摘要的主要內容

  在通过训练好的CNN-LSTM-LSTM深度学习模型得到柬语单文档摘要集的基础上,添加一种分层最大边缘相关算法,迭代合并所有单文档摘要作为最终的多文档摘要。考虑到多文本摘要任务中存在较多的冗余内容,本文用于抽取单文档摘要的深度学习模型参数无法识别多文档文本中较多的冗余内容,于是提出了一种基于分层最大边缘相关算法的柬语多文档抽取式摘要方法。该方法分2步完成:第1步,将每个单文档文本输入到已经训练好的CNN-LSTM-LSTM深度学习模型中,获取所有的单文档摘要;第2步,依据类似瀑布的方式,将按新闻时序排序的单文档摘要集通过改进的最大边缘相关算法,迭代合并所有单文档摘要,得到最终的多文档摘要。过程如图1所示。

  本文中的CNN-LSTM-LSTM深度学习神经网络模型的输入层为已经过分词、词性标注、去噪等预处理之后的柬语多文档新闻语料。在深度学习神经网络模型中,先使用卷积神经网络CNN对输入文档D中的n个句子进行编码,获得所有句子S的句子表征{S1,S2,…,Sn},将其作为长短期记忆神经网络LSTM(long short-term memory)[21]的输入。根据CNN-LSTM-LSTM网络结构可知,文档编码器LSTM的隐藏状态为{h1,h2,…,hi,…,hn},其中hi表示文档D中第i个句子对应的文档编码器LSTM中的隐藏状态,通过文档编码器LSTM得到该输入文档的表征hn,hn为包含文档D中所有句子信息的最后一个隐藏状态。句子提取器LSTM作为另外一种循环神经网络,初始的隐藏状态的输入为与其相连的文档编码器LSTM中的最后一个隐藏状态hn,也是输入文档的表征。句子提取器LSTM中的隐藏状态表示为

  t=LSTM(pt-1St-1,t-1) 。

  式中:t表示在第t个时间步句子提取器LSTM的隐藏状态;pt-1表示句子提取器认为前一句应该被提取的概率;St-1表示前一句的句子表征。

  结合注意力机制[22]的句子提取器在处理第t个时间步的句子时,通过将其当前的隐藏状态t与其在文档编码器中的隐藏状态ht相关联,经过以下处理得到该句子为摘要句标签的概率:

  P(yL=1|St)=σ(MLP([t;ht]))。

  式中:yL∈{0,1}为文档D中的句子是否为摘要句的标签,1表示该句为摘要句;MLP是一个多层神经网络,输入为[t;ht],“;”表示连接;σ表示Sigmoid激活函数。CNN-LSTM-LSTM神经网络模型结构示意图如图2所示。

  推荐阅读:自然语言处理投什么核心期刊好

转载请注明来自:http://www.qikan2017.com/lunwen/wyi/18357.html

相关论文阅读

论文发表技巧

期刊论文问答区

文学历史优质期刊

最新期刊更新

精品推荐