XXIV Открытая конференция студентов-филологов в СПбГУ

Семантика русских предложных групп

Анастасия Дмитриевна Козлова
Докладчик
студент 4 курса
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

Ключевые слова, аннотация

В работе рассмотрены принципы функционирования семантико-синтаксического парсера SemSin, предназначенного для извлечения информации из текстов. Описан алгоритм использования классификации предложных групп по Г. А. Золотовой для отладки работы парсера SemSin и предложены принципы построения новой классификации, необходимой для минимизации ошибок в распознавании предложных групп при обработке парсером массивов текста.

Тезисы

Один из важнейших аспектов развития искусственного интеллекта — адаптация естественного языка для машинной обработки, которая осуществляется с помощью парсера. Парсер представляет собой анализатор, который получает на входе массив данных и на выходе предоставляет их в структурированном формате. В контексте лингвистики он определяется как программа для обработки текста, вычленяющая структуру текста и преобразующая его в заданный вид.
Семантико-синтаксический парсер русскоязычных текстов SemSin является программой с открытым типом управления, функционирование которой основано на наборе продукционных правил. Семантический анализ выявляет смысловые значения отдельных токенов, то есть языковых единиц, на которые разбивается текст, а синтаксический анализ сопоставляет последовательность токенов с грамматикой языка.
Так как SemSin имеет дело с естественным языком, неизбежны проблемы функционирования программы, сталкивающейся с неоднозначностью человеческой речи. Ключевой проблемой является омонимия. Также много сложностей связано с предлогами и предложными конструкциями. Определение семантики предложных групп является одной из самых сложных задач в отладке правильного функционирования парсера.
На данный момент для отладки парсера используется имеется уже созданная классификация предлогов по значению, предложенная Г. А. Золотовой. Однако в контексте дальнейшего развития парсера необходимо иметь в виду, что классификация Г. А. Золотовой не была создана в целях прикладного использования. Возникает необходимость, во-первых, в адаптации и переработке этой классификации для использования её в SemSin и, во-вторых, в создании собственной классификации предлогов в будущем: она будет основана на распределении предлогов не по смыслу, а по их синтаксическим особенностям, ведь продукционные правила пишутся именно с учётом грамматики.
На данном этапе разрабатывается более детальная смысловая классификация, которая может стать ключом к дальнейшему построению грамматической. Осуществлён разбор значений предлогов «Через», «От», «С» (будут приведены подробные примеры).
Анализ предложных групп позволяет уточнять разбор предложения за счёт исключения семантических конструкций, которые формально правильны, однако на практике не употребляются. Грамотная классификация предлогов придаст импульс скорейшему развитию коммуникативной сферы русскоязычного искусственного интеллекта.