基于BERT的抽取式裁判文书摘要生成方法研究

来源：核心期刊咨询网发布时间：咨询：次

摘要：摘要：针对民事裁判文书区别于新闻文本的文本结构和重要信息分布的特点，基于BERT提出了一种结合粗粒度和细粒度抽取方法的结构化民事裁判文书摘要生成方法。首先通过粗粒度抽取方法对裁判文书进行重要的模块信息抽取，以保留文本结构;然后采用基于BERT的序列标注方法

　　摘要：针对民事裁判文书区别于新闻文本的文本结构和重要信息分布的特点，基于BERT提出了一种结合粗粒度和细粒度抽取方法的结构化民事裁判文书摘要生成方法。首先通过粗粒度抽取方法对裁判文书进行重要的模块信息抽取，以保留文本结构;然后采用基于BERT的序列标注方法构建细粒度的抽取式摘要模型，從句子级别对重要模块的信息进行进一步抽取，以构建最终摘要。实验表明，相比于单一的粗粒度抽取或者细粒度抽取，本文方法均获得了更好的摘要生成性能。

　　关键词：司法领域;裁判文书;抽取式文本摘要;序列标注

　　1 引言(Introduction)

　　随着国家依法治国的全面推进和互联网、大数据的快速发展，我国各级政府也在积极推进大数据、人工智能与法院司法实践的融合。裁判文书是记录人民法院审理过程和裁判结果的法律文书，是非常重要的司法文本，其中又以民事裁判文书占比最大，最为繁杂。对民事裁判文书进行摘要生成，可以帮助法官、律师及当事人等迅速、有效地简要了解案件审判过程与结果，从而快速找到相关的指导性案例，对我国的司法智能化辅助审判建设也具有重要的现实意义与应用价值。

　　文本摘要工作旨在从一篇或多篇相同主题的文本中抽取能够反映主题的精简压缩版本[1-2]，解决采用人工进行裁判文书摘要总结导致人力成本高，以及相关司法领域专家缺乏等问题。随着计算机技术的发展和自然语言理解，以及数字人文研究的不断深入，司法领域的自动化文本摘要任务研究逐渐成为一个重要的研究内容。自动文本摘要技术典型的应用场景包括将新闻、社会化短文本和专业领域文献等文本自动生成简短摘要[3]。对于这些应用场景，诸多研究人员已经提出了许多准确且高效的摘要算法，这些算法可以分为抽取式(Extractive)和生成式(Abstractive)。由于抽取式文摘是通过对原文的抽取来形成摘要的，可以保证得到的摘要在语法和事实上的正确性。而法律文本对内容的准确度要求较高，因此本文在探索民事裁判文书的摘要方法时，主要聚焦于抽取式文本摘要方法。

　　抽取式摘要技术最早能追溯到1958 年LUHN[4]提出的word_significance算法，它基于词频抽取重要的句子组成摘要;2003 年，PADMALAHARI等人[5]提出text_pronouns算法，通过构建句子和词语级别的文本特征来进行抽取式自动文摘;此外，MIHALCEA等人[6]提出了Textrank算法，利用投票机制对构建好的图模型中的重要成分进行排序来抽取重要句子构成摘要。随着机器学习的发展，许多研究人员也将机器学习算法运用到文本摘要任务中。NALLAPATI等人[7]提出SummaRuNNer方法，LIU[8]提出Bertsum方法，它们均是采用序列标注方法，构建训练模型来抽取重要的句子，相对于传统的统计方法，能够从语义上对生成文摘的质量有较好的把控，并且使新闻数据集具有不错的性能。但是，由于民事裁判文书不同于新闻文本，因此传统的文本摘要方法直接用于民事裁判文书的摘要生成并不能取得很好的效果。

　　推荐阅读：计算机软件开发与数据库管理探讨

转载请注明来自：http://www.qikan2017.com/lunwen/wyi/23094.html

上一篇：媒体融合背景下电视社教节目的创新实践
下一篇：艺术院校提升大学生爱国主义教育实效性探索