Моделирование границ высказываний в спонтанной монологической речи
Антон Анатольевич Степихов
Докладчик
старший научный сотрудник
Российский государственный педагогический университет им. А. И. Герцена
Российский государственный педагогический университет им. А. И. Герцена
Александр Владимирович Шипило
Докладчик
старший лаборант
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
157
2016-03-16
14:40 -
15:00
Ключевые слова, аннотация
В докладе представлены первые результаты статистического
моделирования границ предложений в спонтанной речи. Материалом исследования
является корпус русских спонтанных монологов, содержащий информацию об
экспертном членении на предложения и морфологическую разметку. Целью анализа
было выявление степени точности модели автоматического определения межфразовых
границ, в основе которой лежит экспертная (ручная) разметка спонтанной речи.
Тезисы
Спустя более чем полвека изучения русской спонтанной речи проблема ее членения на предложения остается одной из ключевых как для лингвистики, так и для компьютерных наук. Проблема заключается в том, что устная речь в отличие от письменного текста не содержит пунктуационных знаков и поэтому не может быть подвергнута однозначной сегментации. Сложность членения спонтанного текста на фразы связана как с самим характером неподготовленной речи, изобилующей различными сбоями в процессе говорения, так и с языковыми особенностями, например, широким распространением в устной речи бессоюзия.
Тем не менее, информация о межфразовых границах важна для анализа текста как лингвистами, так и автоматическими системами. Наличие границ между предложениями оптимизирует работу информационно-поисковых систем, улучшает автоматическую морфологическую и синтаксическую разметку, автоматическое реферирование текста, а также облегчает восприятие человеком автоматически распознанной речи, представленной в виде текста.
Сведения о межфразовых границах получают путем ручной или автоматической сегментации орфографической расшифровки устного текста. Ручная сегментация основывается на экспертной разметке, автоматическая — на компьютерных моделях. Большинство из них стремится воспроизвести ручную разметку, которая считается своего рода «золотым стандартом» для определения межфразовых границ в спонтанной речи.
Результаты проведенного исследования базируются на корпусе русских спонтанных монологов (160 текстов разных типов, 9 часов звучания), который содержит информацию об экспертном членении текстов на предложения и грамматическую разметку, полученную с помощью морфоанализатора Sketch Engine. Размеченные и обработанные данные были в дальнейшем подвергнуты статистическому анализу. Целью анализа было выявление степени точности модели автоматического определения межфразовых границ, в основе которой лежит экспертная (ручная) разметка спонтанной речи. В качестве базовой модели была выбрана n-граммная модель, алгоритм которой основывался на грамматических характеристиках словоформ на границах предложений, полученных в результате экспертного членения корпусных данных. Обучающая выборка, на базе которой проходила тренировка статистической модели, составила 80% корпуса. Работа модели на тестовой выборке показала следующие результаты:
а) модель на базе триграмм: количество правильно распознанных границ предложений — 71%;
б) модель на базе пентаграмм: количество правильно распознанных границ предложений — 36%.
В то же время модель на базе пентаграмм, уступая триграммной модели в точности по распознаванию границ, показала лучший результат по распознаванию отсутствия границы (86% vs 67%) и ложному членению (более чем в два раза).
Тем не менее, информация о межфразовых границах важна для анализа текста как лингвистами, так и автоматическими системами. Наличие границ между предложениями оптимизирует работу информационно-поисковых систем, улучшает автоматическую морфологическую и синтаксическую разметку, автоматическое реферирование текста, а также облегчает восприятие человеком автоматически распознанной речи, представленной в виде текста.
Сведения о межфразовых границах получают путем ручной или автоматической сегментации орфографической расшифровки устного текста. Ручная сегментация основывается на экспертной разметке, автоматическая — на компьютерных моделях. Большинство из них стремится воспроизвести ручную разметку, которая считается своего рода «золотым стандартом» для определения межфразовых границ в спонтанной речи.
Результаты проведенного исследования базируются на корпусе русских спонтанных монологов (160 текстов разных типов, 9 часов звучания), который содержит информацию об экспертном членении текстов на предложения и грамматическую разметку, полученную с помощью морфоанализатора Sketch Engine. Размеченные и обработанные данные были в дальнейшем подвергнуты статистическому анализу. Целью анализа было выявление степени точности модели автоматического определения межфразовых границ, в основе которой лежит экспертная (ручная) разметка спонтанной речи. В качестве базовой модели была выбрана n-граммная модель, алгоритм которой основывался на грамматических характеристиках словоформ на границах предложений, полученных в результате экспертного членения корпусных данных. Обучающая выборка, на базе которой проходила тренировка статистической модели, составила 80% корпуса. Работа модели на тестовой выборке показала следующие результаты:
а) модель на базе триграмм: количество правильно распознанных границ предложений — 71%;
б) модель на базе пентаграмм: количество правильно распознанных границ предложений — 36%.
В то же время модель на базе пентаграмм, уступая триграммной модели в точности по распознаванию границ, показала лучший результат по распознаванию отсутствия границы (86% vs 67%) и ложному членению (более чем в два раза).