XXVI Открытая конференция студентов-филологов в СПбГУ

Распознавание текстов в изданиях кириллического церковнославянского шрифта

Алёна Александровна Смирнова
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В докладе описывается создание модуля по распознаванию текста изданий XIX в., в которых используется церковнославянский шрифт. В качестве примера для работы системы взята коллекция болгарских книг и периодических изданий (1806—1878) Национальной библиотеки имени святых Кирилла и Мефодия, расположенной в Софии. В ходе работы был собран набор образцов изображений букв и надстрочных знаков церковнославянского алфавита, а также создан модуль для конвертации изображения с текстом церковнославянского шрифта в редактируемый формат.

Тезисы

Ключевые слова: распознавание текста; церковнославянский шрифт; старопечатные книги XIX в.

В архивах библиотек и музеев России, Болгарии, Чехии и других стран хранится множество старопечатных книг, содержащих тексты, напечатанные церковнославянской кириллицей. Например, в Национальной библиотеке имени свв. Кирилла и Мефодия, расположенной в Болгарии, находится коллекция книг XIX в., включающая около 1700 наименований в почти 10 тысячах томов. Эта коллекция оцифрована (то есть хранится в виде наборов изображений страниц), однако этих книг нет в формате электронного текста. Существующие системы распознавания способны преобразовать в редактируемый формат изображения с текстами, напечатанными буквами различных алфавитов, однако среди них нет церковнославянской кириллицы.
В ходе работы с помощью различных алгоритмов был реализован модуль, способный распознать церковнославянский кириллический шрифт. В качестве примера для обучения взята коллекция болгарских старопечатных книг и периодических изданий (1806—1878), в которых используется церковнославянский шрифт. Она доступна на сайте библиотеки имени свв. Кирилла и Мефодия в виде отсканированных изображений. Преобладающую часть этой коллекции составляет богослужебно-учебная литература, а также переводная и оригинальная художественная. Выбор этой коллекции обусловлен ее большим размером и разнообразием входящих в нее текстов. На основе 12 выбранных книг («Мудрост добраго Рихарда» (1837), «Кратко начертание на всеобщата история» (1836), «Слово, изказаное заради умирание» (1814) и др.) было составлено два набора данных: из образцов сегментированных изображений букв и образцов изображений надстрочных знаков. Первый набор содержит примеры для 37 символов церковнославянского алфавита, а также трех знаков препинания. Второй набор состоит из примеров девяти надстрочных знаков (острое, тяжелое и облеченное ударение, придыхание, титло и т. д.). Общее количество образцов в первом наборе — более девяти тысяч, во втором — более полутора тысяч. Реализованный модуль способен отличить один символ от другого с вероятностью в 99%.
Результатом работы предложенного модуля является файл, содержащий текст, полученный из изображения страницы. При этом для его корректного отображения используется специальный шрифт для набора старопечатных богослужебных книг и современных старообрядческих изданий. Для оценки результатов распознавания было отобрано 30 фрагментов различных книг из коллекции, точность результата для них варьируется в диапазоне от 89% до 99%.