XXVI Открытая конференция студентов-филологов в СПбГУ

«Абсолютное большинство»: как нейросеть BERT справляется с выявлением атрибутивных словосочетаний?

Лада Леонидовна Скоробагатько
Докладчик
студент 4 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

В докладе рассматривается успешность выявления коллокаций при помощи нейросетевого алгоритма BERT. Коллокации представляли собой атрибутивные словосочетания, которые были подобраны на основе представленности в различных словарях и корпусах русского языка. Согласно полученным данным, модификаця RuBERT справляется с данной задачей наиболее эффективно, что может быть связано с большей репрезентативностью выборки, на которой обучалась данная модель, и стилем текста. Базовая нейросеть BERT показала самые низкие результаты.

Тезисы

Ключевые слова: коллокации; атрибутивные словосочетания; лексическая сочетаемость; нейронная сеть; машинное обучение

В настоящее время нейросетевые алгоритмы используются для широкого спектра задач обработки естественного языка (также «Natural Language Processing», далее — NLP). Нейросеть BERT, языковая модель на архитектуре трансформер, предназначена для решения двух вопросов NLP: 1) предсказание замаскированного слова; 2) анализ двух предикативных частей предложения на их потенциальную взаимосвязь. Насколько нам известно, ранее данный алгоритм не исследовался на успешность выявления пропущенного слова в атрибутивных словосочетаниях (например, абсолютное большинство), однако этот аспект важен для задач NLP.
На данный момент существуют три основные модели нейросетевого алгоритма BERT. Это, собственно, базовая модель BERT, обученная на материале нескольких языков; RuBERT, которую тренировали на текстах русскоязычной версии сайта «Википедия»; Conversational RuBERT, основанная на модификации RuBERT и обучающей выборкой для которой послужили тексты социальных сетей и блогов русскоязычного интернета. В предыдущих исследованиях было показано, что модель Conversational RuBERT наиболее эффективно справляется с предсказанием предикатного слова на основе его актантов и сирконстантов [Alexandrova et al., 2021]. Цель нашего исследования состояла в том, чтобы выявить, насколько нейросетевой алгоритм BERT и его модификации применимы к задаче выявления словарных коллокаций. В качестве материала были использованы 76 атрибутивных словосочетаний, отобранных по принципу наличия в нескольких разнопрофильных словарях и представленности в различных корпусах русского языка [Хохлова, 2021], а также около 21 тысячи контекстов.
Согласно полученным данным, базовая модель BERT справилась с предоставленной задачей хуже всех (коэффициент соответствия составил ~0,119). Лучше всего показала себя модификация RuBERT (~0,263), а 
Conversational RuBERT продемонстрировала промежуточные результаты (~0,174). Эффективность RuBERT может быть связана с тем, что модель была обучена на текстах научного стиля, а контексты для оценки были взяты из художественной русскоязычной литературы. Conversational RuBERT в свою очередь обучалась на текстах разговорного стиля из русскоязычного интернета.

Литература:
Alexandrova P., Mokhova A., Nikolaenkova M. Matching semantic sketches to predicates in context using the BERT model // Proceedings of Annual International Conference of Computatiobal Linguistics and Intellectual Technologies, Dialogue 2021. Moscow, 2021. P. 1
—7.
Хохлова М. В. Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов // Вопросы лексикографии. 2021. №21. С. 33
—68.