基于分层最大边缘相关的柬语多文档抽取式摘要方法
来源:核心期刊咨询网时间:2021-01-25 10:5712
摘要:摘 要:为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;
摘 要:为了解决传统多文档抽取式摘要方法无法有效利用文档之间的语义信息、摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法。首先,将柬语多文档文本输入到训练好的深度学习模型中,抽取得到所有的单文档摘要;然后,依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过改进的最大边缘相关算法合理地选择摘要句,得到最终的多文档摘要。结果表明,与其他方法相比,通过使用深度学习方法并结合分层最大边缘相关算法共同获得的柬语多文档摘要,R1,R2,R3和RL值分别提高了4.31%,5.33%,6.45%和4.26%。基于分层最大边缘相关的柬语多文档抽取式摘要方法在保证摘要句子多样性和差异性的同时,有效提高了柬语多文档摘要的质量。
关键词: 自然语言处理;柬语;抽取式摘要;深度学习;瀑布法;最大边缘相关
随着“一带一路”倡议的实施,中国和柬埔寨作为重要的双边贸易国家和友好合作伙伴,交流与往来日益增加,有关柬埔寨语(简称柬语,下同)的自然语言处理技术[1]研究变得尤为重要。随着互联网技术的发展、信息的增加以及传播和交互速度的迅速加快,人们对互联网的需求正在发生变化[2]。如何从大量冗余信息中快速得到主要内容已成为当前研究的热点。简短的摘要可以帮助人们快速获取信息,加快信息传播速度。根据待观察文档数量的多少,可以将文檔摘要的形式分为单文档摘要[3]和多文档摘要[4]。前者是对一个文档内容进行提取生成一篇摘要,后者是从一个话题下的多篇相关文档中生成一篇摘要。单文档摘要技术主要面向单个文档,随着时代的发展,多文档摘要技术逐渐得到重视。迄今为止,已经有很多方法被应用到多文档摘要技术中,主要分为基于特征的方法、基于聚类的方法、基于图模型的方法和基于深度学习的方法。
基于特征的方法即对语料进行特征构造,转化为句子排序问题,依据句子的重要性挑选摘要句,组合形成摘要。常用的句子特征如句子位置、句子长度、线索词等[5]。常用于基于特征的多文档摘要方法还有基于中心性(Centrality)[6]相关方法,其是在识别输入源中心通道的基础上检测出最显著的信息,用于生成通用的摘要;而基于覆盖率(Coverage)[7]的方法则产生由单词、主题、时间驱动的摘要。基于特征的多文档摘要方法虽然已得到广泛研究,但该方法无法理解文档的上下文信息,仅在句子级别对句子进行评分。
基于聚类的方法即将句子集进行归类。尽管多文档包含多个主题且各文档内容通常有所不同,但是通过聚类方法可以提取出在聚类簇中表达主题信息的句子形成摘要[8]。RADEV等[9]提出了基于质心代表文档集合的逻辑主题的抽取式摘要方法;MCKEOWN等[10]开发了基于片断聚类方法的多文档摘要系统MultiGen,识别出不同文件间的相似之处和不同之处,通过语义相似度提取主题,从主题中抽取交集作为关键词,生成连贯的摘要。但是,基于聚类的方法需要事先知道聚类的类别数。
基于图模型的方法广泛用于多文档摘要任务中,把诸如句子和段落之类的文本单元集成到基于图的结构中,使用类似投票机制提取文本摘要[11]。典型的图模型为PageRank算法[12], 初始时为每个页面分配相同的重要性评分,根据算法迭代更新每个页面的PageRank评分,直至评分稳定。TextRank是在PageRank算法基础上,对每个词节点附上权值,构建关于词的无向带权图,建立图模型,利用投票机制对文本的重要成分进行排序,生成摘要[13]。YASUNAGA等[14]提出了GCN(graph convolutional network)模型,将句子关系图融入到神经网络模型中,得到句子的重要性,利用依此产生的句子高维表征,通过重要性估计提取摘要句。
基于深度学习的方法即利用深度学习训练出词、句子等级别具有上下文信息、语义关系的表征,以便更好地生成摘要[15]。CAO等[16]针对基于查询的多文档摘要任务,提出了AttSum模型,采用联合学习的方法结合卷积神经网络和注意力机制对句子进行建模表示,能够有效学习到文档主旨和摘要句子之间的相关性;NALLAPATI等[17]提出了基于循环神经网络的SummaRuNNer模型,从文本的重要性和新颖性等角度出发,解释文本摘要的生成过程;NARAYAN等[18]利用基于Encoder-Decoder框架的分层文档编码器和基于注意力的解码器结构,结合附带信息的关注来更好地选择摘要句。但是单纯的基于深度学习的方法需要大量数据对模型进行训练。
目前柬语自然语言处理研究的基础较为薄弱,且主要集中在命名实体识别与可比语料方面,关于多文档摘要方面的研究十分稀少,领域专家人工标注的代价十分昂贵,柬语多文档摘要语料较为匮乏。已有多文档抽取式摘要方法大多使用的是有监督的学习方法,不太适用于柬语多文档摘要。本文利用无监督学习方法,在不依赖任何标注数据的情况下,通过对多文档内在特征的挖掘,找到文档间的关系,使用类似瀑布分层的方式,结合改进的最大边缘相关算法MMR[19],基于句子特征的5种评估方法的综合得分决定摘要句的重要性,依据ROUGE-L[20]召回率评估候选摘要句与已选摘要句之间内容的冗余关系,迭代合并通过深度学习模型得到的单文档摘要集,有效提高柬语多文档摘要的质量,保证摘要结果的多样性和差异性。
1 多文档抽取式摘要的主要內容
在通过训练好的CNN-LSTM-LSTM深度学习模型得到柬语单文档摘要集的基础上,添加一种分层最大边缘相关算法,迭代合并所有单文档摘要作为最终的多文档摘要。考虑到多文本摘要任务中存在较多的冗余内容,本文用于抽取单文档摘要的深度学习模型参数无法识别多文档文本中较多的冗余内容,于是提出了一种基于分层最大边缘相关算法的柬语多文档抽取式摘要方法。该方法分2步完成:第1步,将每个单文档文本输入到已经训练好的CNN-LSTM-LSTM深度学习模型中,获取所有的单文档摘要;第2步,依据类似瀑布的方式,将按新闻时序排序的单文档摘要集通过改进的最大边缘相关算法,迭代合并所有单文档摘要,得到最终的多文档摘要。过程如图1所示。
本文中的CNN-LSTM-LSTM深度学习神经网络模型的输入层为已经过分词、词性标注、去噪等预处理之后的柬语多文档新闻语料。在深度学习神经网络模型中,先使用卷积神经网络CNN对输入文档D中的n个句子进行编码,获得所有句子S的句子表征{S1,S2,…,Sn},将其作为长短期记忆神经网络LSTM(long short-term memory)[21]的输入。根据CNN-LSTM-LSTM网络结构可知,文档编码器LSTM的隐藏状态为{h1,h2,…,hi,…,hn},其中hi表示文档D中第i个句子对应的文档编码器LSTM中的隐藏状态,通过文档编码器LSTM得到该输入文档的表征hn,hn为包含文档D中所有句子信息的最后一个隐藏状态。句子提取器LSTM作为另外一种循环神经网络,初始的隐藏状态的输入为与其相连的文档编码器LSTM中的最后一个隐藏状态hn,也是输入文档的表征。句子提取器LSTM中的隐藏状态表示为
t=LSTM(pt-1St-1,t-1) 。
式中:t表示在第t个时间步句子提取器LSTM的隐藏状态;pt-1表示句子提取器认为前一句应该被提取的概率;St-1表示前一句的句子表征。
结合注意力机制[22]的句子提取器在处理第t个时间步的句子时,通过将其当前的隐藏状态t与其在文档编码器中的隐藏状态ht相关联,经过以下处理得到该句子为摘要句标签的概率:
P(yL=1|St)=σ(MLP([t;ht]))。
式中:yL∈{0,1}为文档D中的句子是否为摘要句的标签,1表示该句为摘要句;MLP是一个多层神经网络,输入为[t;ht],“;”表示连接;σ表示Sigmoid激活函数。CNN-LSTM-LSTM神经网络模型结构示意图如图2所示。
推荐阅读:自然语言处理投什么核心期刊好
转载请注明来自:http://www.qikan2017.com/lunwen/wyi/18357.html
相关论文阅读
- 2022-12-26中职计算机课是如何应用电子档案袋的
- 2022-07-20新媒体环境谈汉语言文学发展困境
- 2022-07-11高校图书馆数据库政府采购流程优化管理研究
- 2022-06-22境外企业投建营一体化项目档案管理的问题与对策
- 2022-06-09从编辑视角看都市报融媒体思维的突围
- 2022-05-23广西中小企业人力资源管理创新思路探索
- 2022-05-13艺术院校提升大学生爱国主义教育实效性探索
- 2022-05-11基于BERT的抽取式裁判文书摘要生成方法研究
- 2022-05-07媒体融合背景下电视社教节目的创新实践
- 2022-05-06新媒体在小学家校合作中的现状研究
期刊论文问答区
- 2024-04-232023年版(第十版)北大核心中文核心期刊目录的大看点
- 2024-04-18提高发表论文成功率,不妨试试这些方法
- 2024-04-02sci作者排序以投稿系统为主还是以手稿排序为主
- 2024-01-03Cell Death & Disease期刊发表论文解读
- 2024-01-032023最新期刊分区表大类21个小类254个
- 2023-12-282023年中科院期刊分区表正式发布!快来看看
- 2023-12-25圣诞元旦英文论文审稿变慢是真的吗?答案是真的
- 2023-11-162023年智能电网与能源工程EI会议推荐
- 2023-11-09SCI期刊投稿经验-各种状态解读
- 2023-11-06税务研究杂志的论文发表要求
文学历史优质期刊
最新期刊更新
- 《中国政府采购》
- 《中国政府采购》
- 《农业图书情报学刊》
- 《农业技术经济》
- 《水文地质工程地质》
- 《房地产世界》
- 《中央民族大学学报:哲》
- 《广州化学》
- 《物理学报》
- 《东方宝宝》
- 《新能源进展》
- 《热带农业科学》
- 《建筑经济》
- 《中国学校卫生》
精品推荐
- 12022-12-26中职计算机课是如何应用电子档案袋的
- 22022-07-20新媒体环境谈汉语言文学发展困境
- 32022-07-11高校图书馆数据库政府采购流程优化管理研究
- 42022-06-22境外企业投建营一体化项目档案管理的问题与对策
- 52022-06-09从编辑视角看都市报融媒体思维的突围
- 62022-05-23广西中小企业人力资源管理创新思路探索
- 72022-05-13艺术院校提升大学生爱国主义教育实效性探索
- 82022-05-11基于BERT的抽取式裁判文书摘要生成方法研究
- 12018-11-06延安精神形成的时代背景以及群众文化建设
- 22019-01-14我国宗教中国化方向的核心要求
- 32014-04-22唃厮啰家族末代土司赵天乙生
- 42017-03-22辅导员发论文可以投哪些期刊
- 52018-12-10图书馆开展读者活动的实践与意义
- 62018-10-22喜剧与好莱坞喜剧电影的特征赏析
- 72014-07-15浅谈涂尔干对于宗教含义的定义引读
- 82022-07-20新媒体环境谈汉语言文学发展困境
- 12024-05-154本生物医学领域的期刊,有SCIE也有ESCI
- 22024-05-15ssci收录经济学领域高分期刊Oeconomia Copernicana
- 32024-04-28录用率高、检索稳定计算机科学类SSCI期刊推荐:Systems
- 42024-04-23Sensors主办第十一届传感器与应用国际电子会议 (ECSA-11) 开放征稿中
- 52024-04-232023年版(第十版)北大核心中文核心期刊目录的大看点
- 62024-04-18提高发表论文成功率,不妨试试这些方法
- 72024-04-11AHCI哲学类期刊VERIFICHE
- 82024-04-02sci作者排序以投稿系统为主还是以手稿排序为主
- 12021-05-24刊号字母G、G0、G1、G2、G3、G4、G8是什么意思
- 22021-05-06论文引用率不能超过多少
- 32018-09-11语法翻译法的运用以及优缺点分析
- 42020-03-08发表在期刊上的论文一般多少字
- 52020-09-21疾控中心工作怎么评职称
- 62020-01-03新北大核心什么时候更新,几年更新一次
- 72020-03-08通讯作者和二作哪个含金量比较高
- 82021-02-23发表的期刊论文见刊的时候可以在知网查到吗