50-я Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой

Открытый корпус вепсского и карельского языков (ВепКар): архитектура и его возможности

Александра Павловна Родионова
Докладчик
научный сотрудник
Институт языка, литературы и истории КарНЦ РАН

199 MS Teams
2022-03-19
12:00 - 12:25

Ключевые слова, аннотация

Открытый корпус вепсского и карельского языков (ВепКар); многоязычный корпус; полуавтоматическая лингвистическая разметка; корпус текстов; лемма

Тезисы

Корпус ВепКар обладает следующими характеристиками: – является многоязычным корпусом: включает тексты на вепсском и карельском языках, вепсские и карельские словари имеют толкования на русском и частично английском языках; – включает тексты различной стилистической и жанровой принадлежности;  – является полнотекстовым корпусом: разметка текстов выполняется полностью и поиск осуществляется по всему массиву текстов; – предоставляет пользователям доступ к полным текстам документов, то есть корпус ВепКар можно рассматривать как открытую электронную библиотеку. Корпус (совокупность) текстов является центральным блоком ВепКара. На настоящий момент он содержит свыше 3000 текстов (более 1, 1 миллиона словоупотреблений). В перечень источников для пополнения корпуса входят: опубликованные образцы карельской и вепсской диалектной речи, фольклорные, художественные и переводные тексты, материалы газет и альманахов на карельском и вепсском языках и мн. др. Процесс наполнения корпуса текстами является непрерывным. Словарь является не менее важным блоком, обеспечивающим работу с корпусом текстов. Словарь корпуса содержит свыше 60 тысяч словарных статей и около 2,5 миллионов словоформ. Толкования слов в словаре приводятся на русском и отчасти на английском языке, хотя есть возможность давать толкования на вепсском, наречиях карельского и финском языках. Поиск лемм в рамках словаря возможен по языковой и диалектной принадлежности, по частям речи, грамматическим признакам, а также по лексико-семантическим категориям. Представленные в корпусном менеджере специальные модули, связывающие корпус и словарь, призваны обеспечивать необходимым языковым материалом лингвистические исследования. Важнейшей составляющей корпуса ВепКар является наличие полуавтоматической лингвистической разметки (программа определяет варианты значения слова и его грамматических характеристик). Ее появление стало возможным в результате создания в 2019–2021 гг. генераторов словоформ для вепсского, ливвиковского и собственно карельского подкорпусов. Наличие данных генераторов позволило также разработать инструмент сложного лексико-грамматического поиска по текстам, что особенно важно в процессе решения проблемы преодоления морфологической омонимии в целях создания инструмента автоматической морфологической разметки и морфоанализатора. Инструменты, представленные в корпусе ВепКар сегодня, уже открывают уникальные возможности для решения целого ряда лингвистических задач в области исследования лексики и грамматики карельского и вепсского языков. Материалы корпуса используются в процессе разработки новых словарей и грамматик, а также в процессе редактирования правил и норм новописьменных вариантов исследуемых языков, а также в качестве базы в процессе обучения карельскому и вепсскому языкам.