XXIX Открытая конференция студентов-филологов в СПбГУ

Как разметить устный корпус и не «сойти с ума»: методы автоматического извлечения модифицированных фразеологизмов

Елизавета Васильевна Захарина
Докладчик
студент 3 курса
Национальный исследовательский университет «Высшая школа экономики»

Ключевые слова, аннотация

Доклад посвящен опыту разработки методов автоматического извлечения модифицированных фразеологизмов (на примере фразеологизированной коллокации сойти с ума) на материале НКРЯ. В ходе работы был создан двухкомпонентный алгоритм на языке Python, совмещающий лексический анализ на основе лемматизации с оценкой семантической близости, измеряемой с помощью нейросетевой модели Sentence-BERT. Экспериментальная проверка разработанного алгоритма на выгрузке 4687 корпусных контекстов выявила 4622 релевантных примера употребления единицы, что подтверждает работоспособность предложенного метода.

Тезисы

Ключевые слова: автоматическая разметка; фразеологизированные коллокации; модификации фразеологизмов

При исследовании спонтанной устной речи одной из сложных задач, стоящих перед лингвистами, является автоматическое обнаружение устойчивых неоднословных единиц (УНЕ), в частности фразеологизмов. Если в письменных текстах фразеологизированные коллокации (ФК) часто представлены в своей инвариантной форме, то в устном дискурсе они регулярно подвергаются различного рода модификациям — структурным, грамматическим и лексическим трансформациям. Это значительно затрудняет их автоматическую обработку. Несмотря на прогресс в области автоматического анализа фразеологии, разработка эффективных методов для анализа модифицированных ФК в русскоязычной устной речи остается актуальной научной задачей.
В основу исследования легла гипотеза о том, что совмещение лексического и семантического анализа внутри автоматизированного алгоритма позволит эффективно распознавать модифицированные фразеологизмы при разметке корпусных данных. Лексический анализ отвечает за поиск ключевых компонентов ФК (напр., для фразеологизма сойти с ума это глагол сойти и существительное ум), а семантический — за выявление контекстов, где прямое совпадение лексем невозможно, но смысл близок к инварианту. Для реализации этого подхода был разработан алгоритм на языке Python. В качестве инструментов использовалась библиотека stanza для лемматизации текста и модель paraphrase-multilingual-MiniLM-L12-v2 (Sentence-BERT) для получения векторных представлений предложений. Эта модель позволяет оценивать семантическую близость между анализируемым контекстом и эталонными контекстами употребления ФК. Список эталонных контекстов и ключевых слов для модифицируемых фразеологизмов был сформирован на основе данных, полученных по результатам разметки 1 млн словоупотреблений корпуса «Один речевой день», по итогам которой было обнаружено более 2000 УНЕ, среди которых 683 — ФК. В итоговый файл для обучения алгоритма были отобраны 305 модифицированных ФК.
Разработанный алгоритм был протестирован для поиска модификаций ФК сойти с ума на выгрузке из подкорпуса «Основной» Национального корпуса русского языка, полученной по запросам <с + ума + V>, содержащей 4687 строк текста. В результате обработки было обнаружено 4622 контекста, содержащих искомые ФК в исходном или модифицированном виде. Высокий показатель совпадений (более 98 %) свидетельствует о корректности выбранного гибридного подхода. Алгоритм успешно распознавал не только инвариантные формы (напр., с ума сойду), но и случаи сильных модификаций (напр., замену глагола в контексте она тихохонько присползла с ума), опираясь на семантическую близость с эталонными контекстами из файла для обучения.
Предложенный в работе гибридный метод автоматической разметки модифицированных фразеологизмов, сочетающий поиск по ключевым лексемам и семантический анализ с помощью модели Sentence-BERT, продемонстрировал высокую эффективность на тестовой выборке. Полученные результаты подтверждают перспективность использования подобных подходов для обработки спонтанной устной речи. Разработанный прототип может быть адаптирован для дальнейшей работы с корпусными данными.