От формального поиска к машинному обучению: методы автоматической разметки речевых формул в комментариях каналов в мессенджерах
Александра Сергеевна Масленикова
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Ключевые слова, аннотация
В работе предложены и сопоставлены четыре метода автоматической разметки речевых формул в корпусе русскоязычных Telegram-комментариев (10 000 комментариев, 157261 токен): формальный поиск по словнику, ML-классификатор на основе Random Forest, синтаксическая фильтрация и фильтрация по пунктуационному оформлению. Показано, что метод пунктуационной фильтрации превосходит машинное обучение (F1 = 0,752 против 0,56), поскольку пунктуационное оформление является надежным эксплицитным маркером речевых формул в интернет-дискурсе.
Тезисы
Ключевые слова: речевые формулы; устойчивые неоднословные единицы; автоматическая разметка; машинное обучение; rule-based методы
Речевые формулы (РФ) — термин, описывающий, как правило, междометные единицы, которые выражают эмоциональную реакцию или ответ говорящего в диалоге: ничего себе!, дай бог, ну ладно и др. [Bogdanova-Beglarian et al., 2024: 189]. Несмотря на широкую представленность РФ в устной речи, методы автоматического извлечения РФ в корпусах до настоящего времени не разрабатывались. Настоящая работа восполняет этот пробел: в ней предложены и сопоставлены четыре метода автоматической разметки РФ в корпусе русскоязычных Telegram-комментариев. Эмпирическая база исследования представляет собой, таким образом, корпус, состоящий из 10 000 комментариев общим объемом в 157 261 токен. Исходным методом, послужившим baseline для исследования, стал формальный поиск по словнику с использованием регулярных выражений. Анализ ошибок позволил выявить три типа ложноположительных срабатываний: 1) алгоритм извлекал знаменательные единицы, синтаксически встроенные в структуру предложения и похожие на РФ лишь формально; 2) алгоритм отмечал как РФ вводные конструкции; 3) алгоритм находил фрагмент РФ вместо полной единицы. Для повышения точности был разработан ML-классификатор. Каждая потенциальная РФ описывалась вектором из 63 признаков: лексических (TF-IDF), контекстных (позиция в высказывании, длина комментария), пунктуационных и синтаксических (на основе dependency parsing spaCy). Лучший результат показал Random Forest с синтаксическими признаками: precision — 56%, recall — 56%. Относительно формального поиска результаты улучшились в 2,67 раза. Наиболее информативными признаками оказались TF-IDF, длина комментария и начальная позиция единицы. Вклад синтаксических признаков, однако, оказался ограниченным (+1,8% по precision). Такие результаты связаны с тем, что парсер spaCy систематически ошибочно квалифицировал 68,5% истинных РФ как наречные модификаторы (advmod), встраивая их в структуру предложения, что и снизило надежность этих признаков. Именно это наблюдение натолкнуло на следующую гипотезу: если синтаксический парсер не справляется с РФ, возможно, достаточно опереться на более простой и надежный маркер — пунктуацию. Истинные РФ, как правило, выделяются знаками препинания или занимают начальную позицию в высказывании, отражая просодическую изолированность единицы в устной речи. Метод пунктуационной фильтрации подтвердил эту гипотезу: precision — 76,4%, recall — 74,0%, F1 = 0,752. Сравнение с baseline показало улучшение в 3,64 раза. Таким образом, самый простой из протестированных методов оказался самым эффективным. Этот результат объясняется тем, что пунктуационное оформление является эксплицитным и надежным маркером РФ в письменном интернет-дискурсе, тогда как ML-подход в таких условиях не имеет преимущества перед лингвистически мотивированными правилами. Разработанный метод пунктуационной фильтрации масштабируется на большие корпуса и может применяться к другим классам синтаксически изолированных устойчивых неоднословных единиц.
Литература:
Bogdanova-Beglarian N. V., Blinova O. V., Khokhlova M. V., Sherstinova T. Y., Popova T. I. Multiword Units in Russian Everyday Speech: Empirical Classification and Corpus-Based Studies // Speech and Computer. SPECOM 2024 / eds. A. Karpov. 2024. 15299. 187—200.
Речевые формулы (РФ) — термин, описывающий, как правило, междометные единицы, которые выражают эмоциональную реакцию или ответ говорящего в диалоге: ничего себе!, дай бог, ну ладно и др. [Bogdanova-Beglarian et al., 2024: 189]. Несмотря на широкую представленность РФ в устной речи, методы автоматического извлечения РФ в корпусах до настоящего времени не разрабатывались. Настоящая работа восполняет этот пробел: в ней предложены и сопоставлены четыре метода автоматической разметки РФ в корпусе русскоязычных Telegram-комментариев. Эмпирическая база исследования представляет собой, таким образом, корпус, состоящий из 10 000 комментариев общим объемом в 157 261 токен. Исходным методом, послужившим baseline для исследования, стал формальный поиск по словнику с использованием регулярных выражений. Анализ ошибок позволил выявить три типа ложноположительных срабатываний: 1) алгоритм извлекал знаменательные единицы, синтаксически встроенные в структуру предложения и похожие на РФ лишь формально; 2) алгоритм отмечал как РФ вводные конструкции; 3) алгоритм находил фрагмент РФ вместо полной единицы. Для повышения точности был разработан ML-классификатор. Каждая потенциальная РФ описывалась вектором из 63 признаков: лексических (TF-IDF), контекстных (позиция в высказывании, длина комментария), пунктуационных и синтаксических (на основе dependency parsing spaCy). Лучший результат показал Random Forest с синтаксическими признаками: precision — 56%, recall — 56%. Относительно формального поиска результаты улучшились в 2,67 раза. Наиболее информативными признаками оказались TF-IDF, длина комментария и начальная позиция единицы. Вклад синтаксических признаков, однако, оказался ограниченным (+1,8% по precision). Такие результаты связаны с тем, что парсер spaCy систематически ошибочно квалифицировал 68,5% истинных РФ как наречные модификаторы (advmod), встраивая их в структуру предложения, что и снизило надежность этих признаков. Именно это наблюдение натолкнуло на следующую гипотезу: если синтаксический парсер не справляется с РФ, возможно, достаточно опереться на более простой и надежный маркер — пунктуацию. Истинные РФ, как правило, выделяются знаками препинания или занимают начальную позицию в высказывании, отражая просодическую изолированность единицы в устной речи. Метод пунктуационной фильтрации подтвердил эту гипотезу: precision — 76,4%, recall — 74,0%, F1 = 0,752. Сравнение с baseline показало улучшение в 3,64 раза. Таким образом, самый простой из протестированных методов оказался самым эффективным. Этот результат объясняется тем, что пунктуационное оформление является эксплицитным и надежным маркером РФ в письменном интернет-дискурсе, тогда как ML-подход в таких условиях не имеет преимущества перед лингвистически мотивированными правилами. Разработанный метод пунктуационной фильтрации масштабируется на большие корпуса и может применяться к другим классам синтаксически изолированных устойчивых неоднословных единиц.
Литература:
Bogdanova-Beglarian N. V., Blinova O. V., Khokhlova M. V., Sherstinova T. Y., Popova T. I. Multiword Units in Russian Everyday Speech: Empirical Classification and Corpus-Based Studies // Speech and Computer. SPECOM 2024 / eds. A. Karpov. 2024. 15299. 187—200.