Формализация и автоматическая типологизация произносительных вариантов в диалектном корпусе
Валерия Олеговна Мутина
Докладчик
магистрант 2 курса
Иркутский государственный университет
Иркутский государственный университет
Ключевые слова, аннотация
Автоматическое
структурирование вариативных форм в корпусах устной речи остается сложной
задачей из-за свободной текстовой разметки. На материале диалектного корпуса (≈
98000 токенов, 3722 произносительных варианта) предлагается модель
формализации таких данных: автоматическое извлечение комментариев из скобок, их
связывание с морфологически размеченными токенами и алгоритмическое
сопоставление нормализованных и диалектных вариантов с использованием
distance-метрик. Подход создает основу для автоматической типологизации
диалектных преобразований.
Тезисы
Ключевые слова: вариативность речи; диалектная речь; корпусная лингвистика;
автоматическое извлечение
Корпусные исследования устной и диалектной речи сопровождаются специфическими трудностями аннотирования, связанными с высокой степенью произносительной вариативности встречаемых единиц. В отечественных работах по созданию диалектных корпусов неоднократно подчеркивается, что фонетические варианты, нестандартные словоформы и локальная лексика затрудняют унификацию разметки и требуют разработки специальных схем представления данных [Летучий, 2009; Ляшевская, Кустова, 2015; Маслова, 2021].
Материалом исследования является корпус, в основу которого легли записи глубинных интервью, собранные в результате диалектологической экспедиции сотрудников кафедры русского языка и общего языкознания Иркутского государственного университета в 2012—2014 гг. Объем корпуса составил ≈ 98000 токенов. В процессе транскрибирования вариативные формы фиксировались разметчиком в круглых скобках, например: а в другом у его (яго) трое ребят (рябят) сидели. Всего выявлено 3722 комментария, фиксирующих произносительный вариант.
Проблема избранного способа аннотирования заключается в том, что варианты не подвергаются качественной морфологической разметке и, следовательно, не участвуют в автоматическом поиске. Для ее решения предлагается модель обработки вариативных форм, ориентированная на включение комментариев <(произносит X), (произносит «X») и (X)> в корпусный анализ. На первом этапе автоматически извлекаются и нормализуются форматы записи комментариев. Далее вариант позиционно связывается с соответствующим токеном POS-размеченного нормализованного текста, что позволяет сформировать таблицу структурированных пар «нормализованный — диалектный» вариант. Следующий этап предполагает алгоритмическое сопоставление нормы и варианта. Для каждой пары выполняется выравнивание строк с использованием distance-метрик, что позволяет представить различие между формами как последовательность операций редактирования. На основе повторяющихся моделей выравнивания выполняется типологизация преобразований. Напр., систематическая замена е на я (земля — зямля) может интерпретироваться как проявление яканья, выпадение финальной гласной (бывает — быват) — как стяженная форма.
Полученные признаки могут использоваться как в рамках правил-ориентированной классификации, так и в задачах автоматической кластеризации или обучения классификатора для выявления диалектных маркеров. Таким образом, вариативные формы переводятся из статуса комментариев в формализованные единицы, что открывает возможности для автоматической типологизации диалектных явлений и дальнейшей нормализации устной речи в корпусных ресурсах.
Литература:
Летучий А. Б. 2009. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка: 2006.
Ляшевская О. Н., Кустова Г. И. Устный подкорпус Национального корпуса русского языка: принципы разметки и представления данных // Труды Института русского языка им. Виноградова. РАН. 2015.
Маслова М. Д. Корпус диалектных текстов как возможность удаленной работы с материалом: особенности морфологической разметки / М. Д. Маслова. – Текст: электронный // Мир и пандемии: трансформации, коммуникации, стратегии : материалы Всероссийской научной конференции студентов-стипендиатов Оксфордского Российского фонда ( Екатеринбург, 25 ноября 2020 г.). – Екатеринбург : Изд во Урал. ун та, 2021. – C. 176-180. – URL: https://elar.urfu.ru/handle/10995/99067 (дата обращения: 20.02.2026)
Корпусные исследования устной и диалектной речи сопровождаются специфическими трудностями аннотирования, связанными с высокой степенью произносительной вариативности встречаемых единиц. В отечественных работах по созданию диалектных корпусов неоднократно подчеркивается, что фонетические варианты, нестандартные словоформы и локальная лексика затрудняют унификацию разметки и требуют разработки специальных схем представления данных [Летучий, 2009; Ляшевская, Кустова, 2015; Маслова, 2021].
Материалом исследования является корпус, в основу которого легли записи глубинных интервью, собранные в результате диалектологической экспедиции сотрудников кафедры русского языка и общего языкознания Иркутского государственного университета в 2012—2014 гг. Объем корпуса составил ≈ 98000 токенов. В процессе транскрибирования вариативные формы фиксировались разметчиком в круглых скобках, например: а в другом у его (яго) трое ребят (рябят) сидели. Всего выявлено 3722 комментария, фиксирующих произносительный вариант.
Проблема избранного способа аннотирования заключается в том, что варианты не подвергаются качественной морфологической разметке и, следовательно, не участвуют в автоматическом поиске. Для ее решения предлагается модель обработки вариативных форм, ориентированная на включение комментариев <(произносит X), (произносит «X») и (X)> в корпусный анализ. На первом этапе автоматически извлекаются и нормализуются форматы записи комментариев. Далее вариант позиционно связывается с соответствующим токеном POS-размеченного нормализованного текста, что позволяет сформировать таблицу структурированных пар «нормализованный — диалектный» вариант. Следующий этап предполагает алгоритмическое сопоставление нормы и варианта. Для каждой пары выполняется выравнивание строк с использованием distance-метрик, что позволяет представить различие между формами как последовательность операций редактирования. На основе повторяющихся моделей выравнивания выполняется типологизация преобразований. Напр., систематическая замена е на я (земля — зямля) может интерпретироваться как проявление яканья, выпадение финальной гласной (бывает — быват) — как стяженная форма.
Полученные признаки могут использоваться как в рамках правил-ориентированной классификации, так и в задачах автоматической кластеризации или обучения классификатора для выявления диалектных маркеров. Таким образом, вариативные формы переводятся из статуса комментариев в формализованные единицы, что открывает возможности для автоматической типологизации диалектных явлений и дальнейшей нормализации устной речи в корпусных ресурсах.
Литература:
Летучий А. Б. 2009. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка: 2006.
Ляшевская О. Н., Кустова Г. И. Устный подкорпус Национального корпуса русского языка: принципы разметки и представления данных // Труды Института русского языка им. Виноградова. РАН. 2015.
Маслова М. Д. Корпус диалектных текстов как возможность удаленной работы с материалом: особенности морфологической разметки / М. Д. Маслова. – Текст: электронный // Мир и пандемии: трансформации, коммуникации, стратегии : материалы Всероссийской научной конференции студентов-стипендиатов Оксфордского Российского фонда ( Екатеринбург, 25 ноября 2020 г.). – Екатеринбург : Изд во Урал. ун та, 2021. – C. 176-180. – URL: https://elar.urfu.ru/handle/10995/99067 (дата обращения: 20.02.2026)