XXI Открытая конференция студентов-филологов в СПбГУ

Проблемы автоматизации пополнения онтологии путём семантического анализа толкований на материале существительных, обозначающих местоположение

Иван Андреевич Кондюрин
Докладчик
студент 3 курса
Санкт-Петербургский государственный университет

ауд. 193
2018-04-19
14:55 - 15:10

Ключевые слова, аннотация

Исследуется возможность автоматизации добавления новых элементов в лингвистическую онтологию с помощью семантического анализа определений и толкований из различных источников. Обосновывается сложность использования традиционных словарей для этой задачи и выявляются трудности, возникающие при автоматизации. Приводится алгоритм, используемый для автоматического пополнения онтологии, и проверяется его эффективность.

Тезисы

При использовании онтологической семантики в системах обработки естественного языка одной из нетривиальных проблем является задача автоматического пополнения онтологии. Для того, чтобы все элементы системы анализа могли надлежащим образом функционировать, необходимо регулярное добавление в онтологию новых концептов (т. е. формально определённых понятий) и отношений между ними, поскольку существующей информации может оказаться недостаточно для полного разбора некоторых синтаксических конструкций. Кроме того, в силу естественной изменчивости языка постоянно возникает потребность в обработке новых слов и терминов. Данная проблема особенно актуальна для отдельных лексико-семантических групп (ЛСГ), таких как существительные, обозначающие местоположение, так как среди них находится существенное количество новых и необработанных в системе слов.
Вследствие большого объёма и изменчивости всё множество лексических единиц невозможно вручную добавить в онтологию или корректно экспортировать из существующих структурированных баз данных, в связи с чем особенно актуальной становится задача автоматизации пополнения по крайней мере в рамках определённых лексико-семантических групп.
Целью работы является исследование возможности пополнения онтологии новыми отношениями и концептами, корректно созданными на основе семантического анализа предварительно подготовленных толкований, сопоставление эффективности использования информации из двух разных источников и обоснование их применения для задач автоматического пополнения вместо традиционных словарей.
Для лексико-семантической группы существительных-локативов рассматриваются словарные определения из Викисловаря (Wiktionary) и фрагменты статей Википедии (Wikipedia), содержащие дефиниции. При этом используется созданный для данного исследования параллельный корпус определений из указанных источников. Следует отметить, что задача автоматического извлечения дефиниции из полного текста статьи в данной работе не ставилась. Для определений из корпуса производится попытка создания единого алгоритма пополнения онтологии, описываются обнаруженные при этом трудности, вызванные непоследовательностью словарных определений и использованием эллипсиса.
По итогам работы делается вывод о возможности масштабирования алгоритма на другие ЛСГ и целесообразности его использования при автоматическом анализе текста.