XXVI Открытая конференция студентов-филологов в СПбГУ

Автоматическое упрощение русскоязычных юридических текстов

Марк Махешевич Атугодаге
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В настоящем докладе представлены две модели архитектуры GPT для упрощения юридических текстов на русском языке. Для данной задачи также был создан специальный псевдопараллельный корпус, состоящий из пар «юридический документ — упрощенная версия». Две модели, представленные в данном докладе, отличаются по объему текста на котором они обучались: одна обучена на полных текстах, другая — лишь на определенных фрагментах. Оценка моделей проводилась на метриках ROUGE, SARI и BERTScore. Предложенные модели генерируют упрощенный текст, а также демонстрируют положительные результаты при их оценке. 

Тезисы

Ключевые слова: упрощение текста; юридический текст; русский язык; GPT; transformer

Настоящий доклад посвящен описанию методов автоматического упрощения юридических текстов. Упрощение текста предполагает в частности замену сложных синтаксических конструкций более простыми (в том числе, членение длинных предложений на более краткие), замену сложных лексических единиц более простыми. Упрощение предполагает также и задачу суммаризации, т. е. исключение избыточной или затрудняющей восприятие информации, не обязательной для читателя [Allahyari et al., 2017]. Суммаризация — это сокращение объёма текста с сохранением существенно важных для понимания аспектов содержания [Sikka P. 
et al., 2020]. Актуальность настоящей работы состоит в том, что русскоязычные юридические тексты обнаруживают ряд элементов, затрудняющих читательское восприятие (как на лексическом, так и на синтаксическом уровнях), что делает рассматриваемые тексты малопонятными для читателя без юридического образования [Блинова, 2022]. Эта и подобные работы призваны упростить знакомство читателей с юридическими текстами. В данном докладе представляются две новых модели для упрощения юридических текстов — это усовершенствованные модели GPT3 от «Сбера». Они отличаются по корпусу, на котором были обучены: один корпус представлял из себя коллекцию сжатых текстов, а другой — полных. Эти модели объединяет одно свойство — это модели архитектуры Трансформер (Transformer). Трансформер основывается на нейросетевом механизме внимания (attention), что позволяет значительно больше использовать параллелизм модели (это в свою очередь позволяет использовать относительно мало оперативной памяти), моделировать глобальные зависимости и взаимодействия между элементами последовательности (sequence) независимо от расстояния между ними. Надо отметить, что существует множество видов трансформеров. Для упрощения лучше всего использовать трансформеры типа энкодер-декодер (encoder-decoder) или просто трансформеры типа декодер (decoder) [Пермяков А., 2021]. GPT относится ко второму типу трансформеров. Именно эта модель использовалась для дальнейшего дообучения. Помимо этого, в работе представлен новый псевдопараллельный корпус русскоязычных юридических текстов (законодательных актов, постановлений, указов, и т. п.). Это первый подобный корпус для русского языка.

Литература:
Блинова О. В. Оценка сложности русских правовых текстов: архитектура модели // Мир русского слова. Лингвистика. 2022. Вып. №2. С.4—23 Пермяков А. Контекстно-зависимое перефразирование с использованием глубокого обучения: ВКР … бакалавр комп. наук. СПб., 2021.
Allahyari M., Pouriyeh S., Assefi M., Safaei S., Trippe E. D., Gutierrez J. B., Kochut K. Text Summarization Techniques: A Brief Survey // University of Georgia / Georgia, 2017. P. 1—9.
Sikka P., Singh M., Pink A., Mago V. A Survey on Text Simplification  // ACM Vol. 37, No. 4, Article 111. Ontario (Canada), 2020, P. 2—27.