XXIX Открытая конференция студентов-филологов в СПбГУ

Лингвистическое обеспечение поиска юридической информации с применением LLM и генерации с дополненной выборкой

Дарья Евгеньевна Дубцова
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Целью данной работы стала интеграция лингвистических параметров юридических текстов в процедуру информационного поиска. В рамках исследования были проанализированы корпуса юридических текстов, проведено тематическое моделирование корпуса русских текстов юридического домена CorJurRC при помощи комбинации алгоритмов тематического анализа и эмбеддингов (модель BERTopic). В результате была создана поисковая система на основе больших языковых моделей с применением корпуса текстов законодательных актов РФ RusLawOD в качестве источника фактической информации при помощи технологии RAG. 

Тезисы

Ключевые слова: тематическое моделирование; корпус юридических текстов; поиск юридической информации; генерация с дополненной выборкой 

Применение технологий обработки естественного языка для обеспечения поиска юридической информации является перспективным направлением компьютерной лингвистики. Проекты, связанные с применением данных технологий, ранее были успешно реализованы для законодательств других стран, однако для российского законодательства пока что не были осуществлены.
При поиске юридической информации важна точность, поэтому необходимо минимизировать галлюцинации, возникающие при работе языковой модели. Для этой цели используется генерация с дополненной выборкой (RAG), позволяющая дополнительно обращаться к базе данных. Целью данной работы стала интеграция ряда лингвистических параметров юридических текстов на русском языке в процедуру информационного поиска с помощью больших языковых моделей.
В рамках исследования были решены следующие задачи. Во-первых, были проанализированы существующие корпусные источники юридических текстов на русском языке, для тематического моделирования был выбран основной подкорпус корпуса русских текстов юридического домена CorJurRC. Данный подкорпус содержит письменные тексты официально-делового стиля, включает законы, кодексы, постановления и другие типы документов, что позволило определить основные темы, встречающиеся в современных юридических текстах на русском языке. Тематическое моделирование проводилось при помощи комбинации алгоритмов эмбеддингов, кластеризации текстов и тематического анализа (модель BERTopic), по его результатам была сделана визуализация распределения тем, каждой теме было присвоено название.
После проведения тематического моделирования была создана поисковая система на основе больших языковых моделей с применением корпуса текстов законодательных актов Российской Федерации RusLawOD в качестве источника фактической информации при помощи технологии RAG. Данный корпус был выбран как наиболее полный корпус текстов законодательных актов РФ.
Дальнейшая работа в рамках исследования будет направлена на расширение источников фактической информации и анализ моделей потенциальных вопросов пользователей.