XLIII Международная филологическая научная конференция

Морфоанализ сложносоставных существительных в русском языке: проблема определения рода

Татьяна Георгиевна Скребцова
Докладчик
доцент
Санкт-Петербургский государственный университет

193
2014-03-13
16:50 - 17:10

Ключевые слова, аннотация

Доклад посвящен проблеме автоматического определения рода сложносоставных существительных с дефисным написанием в русском языке. Эта задача вызывает трудности в том случае, когда компоненты такого слова имеют разный грамматический род. Предлагаемые в литературе подходы либо неверны, либо непригодны в контексте автоматической обработки языка. На основе анализа подобных существительных автор показывает нетривиальность задачи и отсутствие единого подхода к ее решению. В качестве вынужденного решения предлагается приписывать им альтернативный род, что влечет увеличение неоднозначности.

Тезисы

В системах автоматической обработки языка морфологический анализ, как правило, является наиболее разработанным компонентом. Несмотря на то что существуют разные подходы к построению парсера, самым распространенным в наши дни является метод, опирающийся на словарь словоформ. Вместе с тем, он имеет хорошо известный недостаток, а именно неспособность справляться со словами, которых нет в словаре, – так называемыми «несловарными словоформами». К этому разряду относятся имена собственные, аббревиатуры, а также многие производные слова, в том числе сложносоставные.
Сложносоставные слова образуют открытую группу, легко пополняемую новыми членами. Исчислить ее состав невозможно, следовательно, требуется разработать стратегию действий морфологического парсера при анализе таких словоформ. Этому вопросу и посвящена настоящая статья. Основное внимание уделяется проблеме автоматического определения рода сложносоставных существительных с дефисным написанием типа женщина-космонавт, чудо-йогурт, диван-кровать и т.д. Очевидно, что трудности возникают тогда, когда компоненты сложносоставного существительного имеют разный грамматический род. В литературе этот вопрос практически не затрагивался. Предложенные подходы либо несостоятельны, либо непригодны в контексте автоматической обработки языка. Автор вынужден констатировать, что, по-видимому, однозначное автоматическое определение рода сложносоставного существительного с дефисным написанием невозможно, если его компоненты имеют разный грамматический род. Следовательно, таким словам в ходе автоматического морфоанализа следует приписывать два альтернативных значения грамматического рода, что повышает общий индекс неоднозначности. Примечательно, что схожая задача автоматического определения числа сложносоставных существительных (когда эти значения не совпадают у компонентов слова, например часы-будильник, пресс-службы) разрешается гораздо проще.