Метод интеграции TEI-XML текстов в корпус-менеджер ANNIS на примере Санкт-Петербургского корпуса агиографических текстов
Александр Сергеевич Квашнин
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
В работе предлагается
новый метод интеграции текстов в формате TEI-XML в корпус-менеджер ANNIS на
примере Санкт-Петербургского корпуса агиографических текстов. Разработан
алгоритм конвертации через промежуточный формат TreeTagger с использованием инструмента
Annatto, обеспечивающий полный перенос лингвистической и структурной разметки. В
качестве интерфейса для просмотра текстов представлено решение на базе CETEIcean,
позволяющее извлекать морфологическую информацию слов прямо из текста.
Результат — полноценный online-доступ к корпусу на платформе ANNIS для
лингвистических исследований.
Тезисы
Ключевые
слова: корпусная лингвистика; TEI-XML; ANNIS; конвертация форматов;
агиографические тексты
Цель настоящего исследования — разработка метода интеграции текстов в формате TEI-XML в корпус-менеджер ANNIS, обеспечивающего сохранение всей лингвистической и структурной разметки. Новизна подхода заключается в использовании при конвертации формата разметки TreeTagger как промежуточного. Данный метод работает без потерь данных, что характерно для устаревших инструментов вроде Pepper Converter.
Разработка и апробация метода проводилась на материалах Санкт-Петербургский корпуса агиографических текстов (СКАТ), ранее размещавшегося на платформе TXM [Рогозина, 2022]. В веб-версии данного ресурса наблюдалась проблема ограниченного функционала. Корпус-менеджер ANNIS [Krause, Zeldes, 2016] был выбран в качестве альтернативы благодаря своей эффективности в обработке сложных запросов, гибкости в настройке и добавления функционала.
Исследование включало в себя анализ существующих инструментов конвертации. Pepper, хотя и поддерживает TEI, содержит ошибки в алгоритме конвертации, приводящие к потере информации. Annatto, современный инструмент от разработчиков ANNIS, не работает с TEI напрямую, но совместим с TreeTagger, который позволяет кодировать лингвистическую информацию значениями, разделенными знаками табуляции (tab-separated values, TSV), и структурные элементы с помощью SGML-тегов. Был разработан двухэтапный алгоритм: 1) конвертация TEI-XML в TreeTagger с помощью программы на языке программирования Python, где данные из тегов записываются в TSV, а структурные теги (div, head, floatingText, quote) кодируются с помощью SGML-тегов; 2) преобразование TreeTagger в поддерживаемый корпус-менеджером формат GraphML посредством Annatto. После импорта в ANNIS проведена проверка: лингвистическая и структурная информация сохранена полностью. Для просмотра текстов был разработан интерфейс на базе библиотеки CETEIcean, интегрированный в ANNIS. Это позволяет отображать оригинальную TEI-разметку в браузере без преобразования в другие форматы, в отличие от XSLT-шаблонов. Добавлен функционал извлечения лингвистической разметки из слов для формирования поисковых запросов.
Результаты демонстрируют эффективность метода: корпус СКАТ успешно интегрирован в ANNIS без потерь, что открывает новые возможности для корпусных исследований агиографических текстов, включая сложные запросы по морфологии, синтаксису и структуре текста.
Литература:
Рогозина Е. А. Представление и анализ элементов структуры содержания в Санкт-Петербургском корпусе агиографических текстов (СКАТ) // Вестник Волгоградского государственного университета. Серия 2, Языкознание. 2022. Т. 21, Вып. 6. С. 30—46.
Krause T., Zeldes A. ANNIS3: A new architecture for generic corpus query and visualization // Digital Scholarship in the Humanities. 2016. 31, 1. 118—139.
Цель настоящего исследования — разработка метода интеграции текстов в формате TEI-XML в корпус-менеджер ANNIS, обеспечивающего сохранение всей лингвистической и структурной разметки. Новизна подхода заключается в использовании при конвертации формата разметки TreeTagger как промежуточного. Данный метод работает без потерь данных, что характерно для устаревших инструментов вроде Pepper Converter.
Разработка и апробация метода проводилась на материалах Санкт-Петербургский корпуса агиографических текстов (СКАТ), ранее размещавшегося на платформе TXM [Рогозина, 2022]. В веб-версии данного ресурса наблюдалась проблема ограниченного функционала. Корпус-менеджер ANNIS [Krause, Zeldes, 2016] был выбран в качестве альтернативы благодаря своей эффективности в обработке сложных запросов, гибкости в настройке и добавления функционала.
Исследование включало в себя анализ существующих инструментов конвертации. Pepper, хотя и поддерживает TEI, содержит ошибки в алгоритме конвертации, приводящие к потере информации. Annatto, современный инструмент от разработчиков ANNIS, не работает с TEI напрямую, но совместим с TreeTagger, который позволяет кодировать лингвистическую информацию значениями, разделенными знаками табуляции (tab-separated values, TSV), и структурные элементы с помощью SGML-тегов. Был разработан двухэтапный алгоритм: 1) конвертация TEI-XML в TreeTagger с помощью программы на языке программирования Python, где данные из тегов записываются в TSV, а структурные теги (div, head, floatingText, quote) кодируются с помощью SGML-тегов; 2) преобразование TreeTagger в поддерживаемый корпус-менеджером формат GraphML посредством Annatto. После импорта в ANNIS проведена проверка: лингвистическая и структурная информация сохранена полностью. Для просмотра текстов был разработан интерфейс на базе библиотеки CETEIcean, интегрированный в ANNIS. Это позволяет отображать оригинальную TEI-разметку в браузере без преобразования в другие форматы, в отличие от XSLT-шаблонов. Добавлен функционал извлечения лингвистической разметки из слов для формирования поисковых запросов.
Результаты демонстрируют эффективность метода: корпус СКАТ успешно интегрирован в ANNIS без потерь, что открывает новые возможности для корпусных исследований агиографических текстов, включая сложные запросы по морфологии, синтаксису и структуре текста.
Литература:
Рогозина Е. А. Представление и анализ элементов структуры содержания в Санкт-Петербургском корпусе агиографических текстов (СКАТ) // Вестник Волгоградского государственного университета. Серия 2, Языкознание. 2022. Т. 21, Вып. 6. С. 30—46.
Krause T., Zeldes A. ANNIS3: A new architecture for generic corpus query and visualization // Digital Scholarship in the Humanities. 2016. 31, 1. 118—139.