基于BERT的抽取式裁判文书摘要生成方法研究
来源:核心期刊咨询网时间:2022-05-11 10:2412
摘要:摘 要:针对民事裁判文书区别于新闻文本的文本结构和重要信息分布的特点,基于BERT提出了一种结合粗粒度和细粒度抽取方法的结构化民事裁判文书摘要生成方法。首先通过粗粒度抽取方法对裁判文书进行重要的模块信息抽取,以保留文本结构;然后采用基于BERT的序列标注方法
摘 要:针对民事裁判文书区别于新闻文本的文本结构和重要信息分布的特点,基于BERT提出了一种结合粗粒度和细粒度抽取方法的结构化民事裁判文书摘要生成方法。首先通过粗粒度抽取方法对裁判文书进行重要的模块信息抽取,以保留文本结构;然后采用基于BERT的序列标注方法构建细粒度的抽取式摘要模型,從句子级别对重要模块的信息进行进一步抽取,以构建最终摘要。实验表明,相比于单一的粗粒度抽取或者细粒度抽取,本文方法均获得了更好的摘要生成性能。
关键词:司法领域;裁判文书;抽取式文本摘要;序列标注
1 引言(Introduction)
随着国家依法治国的全面推进和互联网、大数据的快速发展,我国各级政府也在积极推进大数据、人工智能与法院司法实践的融合。裁判文书是记录人民法院审理过程和裁判结果的法律文书,是非常重要的司法文本,其中又以民事裁判文书占比最大,最为繁杂。对民事裁判文书进行摘要生成,可以帮助法官、律师及当事人等迅速、有效地简要了解案件审判过程与结果,从而快速找到相关的指导性案例,对我国的司法智能化辅助审判建设也具有重要的现实意义与应用价值。
文本摘要工作旨在从一篇或多篇相同主题的文本中抽取能够反映主题的精简压缩版本[1-2],解决采用人工进行裁判文书摘要总结导致人力成本高,以及相关司法领域专家缺乏等问题。随着计算机技术的发展和自然语言理解,以及数字人文研究的不断深入,司法领域的自动化文本摘要任务研究逐渐成为一个重要的研究内容。自动文本摘要技术典型的应用场景包括将新闻、社会化短文本和专业领域文献等文本自动生成简短摘要[3]。对于这些应用场景,诸多研究人员已经提出了许多准确且高效的摘要算法,这些算法可以分为抽取式(Extractive)和生成式(Abstractive)。由于抽取式文摘是通过对原文的抽取来形成摘要的,可以保证得到的摘要在语法和事实上的正确性。而法律文本对内容的准确度要求较高,因此本文在探索民事裁判文书的摘要方法时,主要聚焦于抽取式文本摘要方法。
抽取式摘要技术最早能追溯到1958 年LUHN[4]提出的word_significance算法,它基于词频抽取重要的句子组成摘要;2003 年,PADMALAHARI等人[5]提出text_pronouns算法,通过构建句子和词语级别的文本特征来进行抽取式自动文摘;此外,MIHALCEA等人[6]提出了Textrank算法,利用投票机制对构建好的图模型中的重要成分进行排序来抽取重要句子构成摘要。随着机器学习的发展,许多研究人员也将机器学习算法运用到文本摘要任务中。NALLAPATI等人[7]提出SummaRuNNer方法,LIU[8]提出Bertsum方法,它们均是采用序列标注方法,构建训练模型来抽取重要的句子,相对于传统的统计方法,能够从语义上对生成文摘的质量有较好的把控,并且使新闻数据集具有不错的性能。但是,由于民事裁判文书不同于新闻文本,因此传统的文本摘要方法直接用于民事裁判文书的摘要生成并不能取得很好的效果。
推荐阅读:计算机软件开发与数据库管理探讨
转载请注明来自:http://www.qikan2017.com/lunwen/wyi/23094.html
相关论文阅读
- 2022-12-26中职计算机课是如何应用电子档案袋的
- 2022-07-20新媒体环境谈汉语言文学发展困境
- 2022-07-11高校图书馆数据库政府采购流程优化管理研究
- 2022-06-22境外企业投建营一体化项目档案管理的问题与对策
- 2022-06-09从编辑视角看都市报融媒体思维的突围
- 2022-05-23广西中小企业人力资源管理创新思路探索
- 2022-05-13艺术院校提升大学生爱国主义教育实效性探索
- 2022-05-11基于BERT的抽取式裁判文书摘要生成方法研究
- 2022-05-07媒体融合背景下电视社教节目的创新实践
- 2022-05-06新媒体在小学家校合作中的现状研究
期刊论文问答区
- 2024-04-18提高发表论文成功率,不妨试试这些方法
- 2024-04-02sci作者排序以投稿系统为主还是以手稿排序为主
- 2024-01-03Cell Death & Disease期刊发表论文解读
- 2024-01-032023最新期刊分区表大类21个小类254个
- 2023-12-282023年中科院期刊分区表正式发布!快来看看
- 2023-12-25圣诞元旦英文论文审稿变慢是真的吗?答案是真的
- 2023-11-162023年智能电网与能源工程EI会议推荐
- 2023-11-09SCI期刊投稿经验-各种状态解读
- 2023-11-06税务研究杂志的论文发表要求
- 2023-11-06个人的发明专利 如何申请个人发明专利
文学历史优质期刊
最新期刊更新
- 《中国政府采购》
- 《中国政府采购》
- 《农业图书情报学刊》
- 《农业技术经济》
- 《水文地质工程地质》
- 《房地产世界》
- 《中央民族大学学报:哲》
- 《广州化学》
- 《物理学报》
- 《东方宝宝》
- 《新能源进展》
- 《热带农业科学》
- 《建筑经济》
- 《中国学校卫生》
精品推荐
- 12022-12-26中职计算机课是如何应用电子档案袋的
- 22022-07-20新媒体环境谈汉语言文学发展困境
- 32022-07-11高校图书馆数据库政府采购流程优化管理研究
- 42022-06-22境外企业投建营一体化项目档案管理的问题与对策
- 52022-06-09从编辑视角看都市报融媒体思维的突围
- 62022-05-23广西中小企业人力资源管理创新思路探索
- 72022-05-13艺术院校提升大学生爱国主义教育实效性探索
- 82022-05-11基于BERT的抽取式裁判文书摘要生成方法研究
- 12018-11-06延安精神形成的时代背景以及群众文化建设
- 22019-01-14我国宗教中国化方向的核心要求
- 32014-04-22唃厮啰家族末代土司赵天乙生
- 42017-03-22辅导员发论文可以投哪些期刊
- 52018-12-10图书馆开展读者活动的实践与意义
- 62018-10-22喜剧与好莱坞喜剧电影的特征赏析
- 72014-07-15浅谈涂尔干对于宗教含义的定义引读
- 82022-07-20新媒体环境谈汉语言文学发展困境
- 12024-04-18提高发表论文成功率,不妨试试这些方法
- 22024-04-11AHCI哲学类期刊VERIFICHE
- 32024-04-02sci作者排序以投稿系统为主还是以手稿排序为主
- 42024-02-19期刊分区:JCR分区与中科院分区的深度解析
- 52024-02-19美国留学论文发什么期刊
- 62024-02-02人力资源管理论文适合选择的ssci期刊
- 72024-02-02SCI论文润色作用这么大,你知道几条
- 82024-01-172023年最新期刊分区表材料科学类目录变动
- 12021-05-24刊号字母G、G0、G1、G2、G3、G4、G8是什么意思
- 22021-05-06论文引用率不能超过多少
- 32018-09-11语法翻译法的运用以及优缺点分析
- 42020-03-08发表在期刊上的论文一般多少字
- 52020-09-21疾控中心工作怎么评职称
- 62020-01-03新北大核心什么时候更新,几年更新一次
- 72020-03-08通讯作者和二作哪个含金量比较高
- 82021-02-23发表的期刊论文见刊的时候可以在知网查到吗