Отображение ассоциативных связей в реакциях носителей русского языка и больших языковых моделей
Маргарита Константиновна Бакаева
Докладчик
студент 2 курса
Санкт-Петербургский государственный университет
Санкт-Петербургский государственный университет
Ключевые слова, аннотация
Ассоциативные связи представляют собой важную составляющую ментального лексикона. Исследуется воспроизведение семантических связей в русском языке большими языковыми моделями (LLM). Сопоставительный анализ проводится на основе данных «Ассоциативного словаря употребительной русской лексики», используются синтетические персоны, созданные с учетом социодемографических параметров, и разноформатные промпты. LLM демонстрируют высокую точность в воспроизведении устойчивых связей в лексиконе, однако их эффективность снижается при работе с контекстно-зависимыми и слабыми ассоциациями.
Тезисы
Ключевые слова: русский язык; большая языковая модель; ассоциации; синтетическая персона
Работа посвящена исследованию соответствия между ассоциативными реакциями носителей русского языка и ответами больших языковых моделей (LLM) в экспериментах с персонифицированными промптами. Гипотеза состоит в том, что если LLM адекватно воспринимает естественный язык, то в ассоциативном эксперименте ответы модели должны соответствовать реакциям русскоговорящих. Вероятно, реакции модели будут близки к значениям «Ассоциативного словаря употребительной русской лексики» [Стернин, Рудакова, 2019: 130], из которого были заимствованы словарные данные в качестве материала исследования.
В ходе ассоциативного эксперимента задачей LLM является формирование набора слов-ассоциатов в ответ на данные стимулы. Ассоциаты, сгенерированные языковой моделью, сравниваются с ассоциациями, приведенными в словаре. Выбор источника данных обусловлен тем, что в нем зафиксированы ответы носителей русского языка с оценкой по частотности реакций и их дифференциации по полу и возрасту говорящих, что является удачным решением для большей репрезентативности данных. В эксперименте с промптами данные признаки говорящих отражены при формировании четырех синтетических персон, что позволяет получать более точные ответы от языковой модели.
В исследовании использовалась бесплатная модель Gemma, распознающая запросы на русском языке. Выбор модели обусловлен двумя факторами. Во-первых, ее архитектура позволяет добиваться высокой точности в задачах семантического анализа. Во-вторых, модель предобучена на корпусах текстов, включающих русскоязычные данные, что делает ее пригодной для генерации ассоциаций на русском языке. Языковой модели были предложено проанализировать список слов-стимулов, сформированных на основе «Ассоциативного словаря употребительной русской лексики», и привести по пять ассоциаций на каждый стимул от лица каждой синтетической персоны.
С поставленной задачей языковая модель справилась успешно. После векторизации полученных данных выяснилось, что ответы модели тяготеют к ассоциациям, характерным для русскоговорящих женщин, а также для лиц молодого возраста. Кроме того, модель продемонстрировала чувствительность к русскоязычным промптам форматов zero-shot и few-shot, а ее ответы в значительной степени совпали со словарными данными. Было установлено, что корреляционная зависимость между социодемографическими параметрами и ассоциациями LLM довольно высока, а значит представление ассоциативных связей в LLM адекватно естественному языку.
Литература:
Стернин И. А., Рудакова А. В. Ассоциативный словарь употребительной русской лексики. Воронеж, 2019.
Работа посвящена исследованию соответствия между ассоциативными реакциями носителей русского языка и ответами больших языковых моделей (LLM) в экспериментах с персонифицированными промптами. Гипотеза состоит в том, что если LLM адекватно воспринимает естественный язык, то в ассоциативном эксперименте ответы модели должны соответствовать реакциям русскоговорящих. Вероятно, реакции модели будут близки к значениям «Ассоциативного словаря употребительной русской лексики» [Стернин, Рудакова, 2019: 130], из которого были заимствованы словарные данные в качестве материала исследования.
В ходе ассоциативного эксперимента задачей LLM является формирование набора слов-ассоциатов в ответ на данные стимулы. Ассоциаты, сгенерированные языковой моделью, сравниваются с ассоциациями, приведенными в словаре. Выбор источника данных обусловлен тем, что в нем зафиксированы ответы носителей русского языка с оценкой по частотности реакций и их дифференциации по полу и возрасту говорящих, что является удачным решением для большей репрезентативности данных. В эксперименте с промптами данные признаки говорящих отражены при формировании четырех синтетических персон, что позволяет получать более точные ответы от языковой модели.
В исследовании использовалась бесплатная модель Gemma, распознающая запросы на русском языке. Выбор модели обусловлен двумя факторами. Во-первых, ее архитектура позволяет добиваться высокой точности в задачах семантического анализа. Во-вторых, модель предобучена на корпусах текстов, включающих русскоязычные данные, что делает ее пригодной для генерации ассоциаций на русском языке. Языковой модели были предложено проанализировать список слов-стимулов, сформированных на основе «Ассоциативного словаря употребительной русской лексики», и привести по пять ассоциаций на каждый стимул от лица каждой синтетической персоны.
С поставленной задачей языковая модель справилась успешно. После векторизации полученных данных выяснилось, что ответы модели тяготеют к ассоциациям, характерным для русскоговорящих женщин, а также для лиц молодого возраста. Кроме того, модель продемонстрировала чувствительность к русскоязычным промптам форматов zero-shot и few-shot, а ее ответы в значительной степени совпали со словарными данными. Было установлено, что корреляционная зависимость между социодемографическими параметрами и ассоциациями LLM довольно высока, а значит представление ассоциативных связей в LLM адекватно естественному языку.
Литература:
Стернин И. А., Рудакова А. В. Ассоциативный словарь употребительной русской лексики. Воронеж, 2019.