Оценка автоматических методов выявления устойчивых словосочетаний
Юлия Николаевна Курочкина
Докладчик
магистрант 1 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
193
2016-04-20
14:40 -
15:00
Ключевые слова, аннотация
Доклад посвящен оценке мер ассоциаций, используемых
для выявления коллокаций. Изучается эффективность и релевантность нескольких мер, а именно: t-score, Mi, MI3, log likelihood и logDice. Исследование
проводилось на корпусе Araneum Anglicum Maius в системе SketchEngine.
Тезисы
В работе исследуются различные устойчивые сочетания: фразеологические единства, фразеологические сочетания, фразеологические
выражения, а также устойчивые нефразеологизированные, терминологические имена собственные.
В данной работе мы опираемся на понятие коллокации, данное И. А. Мельчуком. Словосочетание — соединение двух или более знаменательных слов, связанных по смыслу и грамматически, выражающее единое, но расчлененное понятие и представляющее собой сложное наименование явлений объективной действительности. В коллокации выделяют опорное слово и коллокаты (слова, тесно связанные с опорным).
Существуют различные методы автоматического выявления устойчивых словосочетаний на базе больших корпусов текстов — в целом процедура заключается в отборе кандидатов в коллокации на основе выбранных критериев (мер ассоциаций, одной или нескольких).
Меры ассоциации — статистические формулы, вычисляющие силу синтагматической связи элементов в составе устойчивого словосочетания на основе частоты совместной встречаемости, частот в данном корпусе каждого отдельного слова и других характеристик.
Список самых распространенных мер ассоциации заключается в следующих составляющих:
Исследование показало, что характерные коллокаты, выделяемые разными мерами, относятся к разным классам лексики (редкие слова, частые слова, знаки препинания, которые рассматриваются как отдельные токены).
Лучшие результаты показала мера logDice.
В данной работе мы опираемся на понятие коллокации, данное И. А. Мельчуком. Словосочетание — соединение двух или более знаменательных слов, связанных по смыслу и грамматически, выражающее единое, но расчлененное понятие и представляющее собой сложное наименование явлений объективной действительности. В коллокации выделяют опорное слово и коллокаты (слова, тесно связанные с опорным).
Существуют различные методы автоматического выявления устойчивых словосочетаний на базе больших корпусов текстов — в целом процедура заключается в отборе кандидатов в коллокации на основе выбранных критериев (мер ассоциаций, одной или нескольких).
Меры ассоциации — статистические формулы, вычисляющие силу синтагматической связи элементов в составе устойчивого словосочетания на основе частоты совместной встречаемости, частот в данном корпусе каждого отдельного слова и других характеристик.
Список самых распространенных мер ассоциации заключается в следующих составляющих:
- T-score
- MI
- MI3
- log likelihood
- logDice
Исследование показало, что характерные коллокаты, выделяемые разными мерами, относятся к разным классам лексики (редкие слова, частые слова, знаки препинания, которые рассматриваются как отдельные токены).
Лучшие результаты показала мера logDice.