XIX Открытая конференция студентов-филологов в СПбГУ

Оценка автоматических методов выявления устойчивых словосочетаний

Юлия Николаевна Курочкина
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет

193
2016-04-20
14:40 - 15:00

Ключевые слова, аннотация

Доклад посвящен оценке мер ассоциаций, используемых для выявления коллокаций. Изучается эффективность и релевантность нескольких мер, а именно: t-score, Mi, MI3, log likelihood и logDice. Исследование проводилось на корпусе Araneum Anglicum Maius в системе SketchEngine.

Тезисы

В работе исследуются различные устойчивые сочетания: фразеологические единства, фразеологические сочетания, фразеологические выражения, а также устойчивые нефразеологизированные, терминологические имена собственные.
В данной работе мы опираемся на понятие коллокации, данное И. А. Мельчуком. Словосочетание — соединение двух или более знаменательных слов, связанных по смыслу и грамматически, выражающее единое, но расчлененное понятие и представляющее собой сложное наименование явлений объективной действительности. В коллокации выделяют опорное слово и коллокаты (слова, тесно связанные с опорным).
Существуют различные методы автоматического выявления устойчивых словосочетаний на базе больших корпусов текстов — в целом процедура заключается в отборе кандидатов в коллокации на основе выбранных критериев (мер ассоциаций, одной или нескольких).
Меры ассоциации — статистические формулы, вычисляющие силу синтагматической связи элементов в составе устойчивого словосочетания на основе частоты совместной встречаемости, частот в данном корпусе каждого отдельного слова и других характеристик.
Список самых распространенных мер ассоциации заключается в следующих составляющих:
  • T-score
  • MI
  • MI3
  • log likelihood
  • logDice
Исследование проводилось на корпусе Araneum Anglicum Maius объемом 1,2 млрд токенов в системе SketchEngine.
Исследование показало, что характерные коллокаты, выделяемые разными мерами, относятся к разным классам лексики (редкие слова, частые слова, знаки препинания, которые рассматриваются как отдельные токены).
Лучшие результаты показала мера logDice.