Автоматическое выделение терминов и терминологических словосочетаний из специальных текстов

Maria Vladimirovna Khokhlova

Докладчик

доцент
Санкт-Петербургский государственный университет

193
2014-03-14

16:50 - 17:10

Ключевые слова, аннотация

Доклад посвящен автоматическому выявлению терминов и терминологических сочетаний на основе комбинации статистических и лингвистических методов.

Тезисы

Статистический подход для выделения терминологических сочетаний может быть реализован по-разному. Первый вариант заключается в нахождении n-словных сочетаний (n-грамм) на основе частотных характеристик. Это могут быть значения относительных частот для данных словосочетаний в корпусе или значения некоторых статистических мер, согласно которым конструкция была найдена и выдана среди результатов. Далее может быть использован порог отсечения по заданному значению. Второй, лингвистический подход для выделения терминологических сочетаний заключается в предварительном описании моделей, по которым строятся терминологические словосочетания, для последующего нахождения их в корпусе. Фактически этот подход является комбинированным, т.к. объединяет и лингвистический, и статистический методы [Большакова и др. 2010]. Внутри множеств однотипных синтаксических конструкций выполняется ранжирование в соответствии с той или иной статистической мерой. Похожий подход описывается в работе [Pazienza et al. 2005] для английского языка. Нами используется метод выявления устойчивых сочетаний на основе грамматики лексико-синтаксических шаблонов для описания терминологических сочетаний для русского языка.
Литература:
1. Большакова Е. И., Ефремова Н. Э., Носков А. А., Антонов В. Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26–30 мая 2010 г.). Вып. 9 (16). – М.: Изд-во РГГУ, 2010. С. 124–129.
2. Pazienza M., Pennacchiotti M., and Zanzotto F. Terminology extraction: an analysis of linguistic and statistical approaches. Knowledge Mining Series: Studies in Fuzziness and Soft Computing, Springer Verlag, Berlin, 2005. P. 255–279.

XLIII Международная филологическая научная конференция

Автоматическое выделение терминов и терминологических словосочетаний из специальных текстов

Ключевые слова, аннотация

Тезисы