XXIX Открытая конференция студентов-филологов в СПбГУ

Разработка датасета для обогащения словарного запаса генеративных моделей в задачах текстовых RPG

Анастасия Андреевна Бородина
Докладчик
студент 2 курса
Национальный исследовательский университет «Высшая школа экономики»

Ключевые слова, аннотация

Настоящее исследование посвящено созданию полусинтетического датасета для тонкой настройки больших языковых моделей в сфере русскоязычных текстовых RPG. На основе метода few-shot learning и техник аугментации сгенерирован структурированный датасет с локациями для обучения LLM контекстуальной уместности, лексическому разнообразию в жанре киберпанка.

Тезисы

Ключевые слова: текстовые RPG; LLM; полусинтетический датасет; киберпанк

Сейчас LLM хорошо генерируют тексты на английском языке, однако их применение для создания сценариев русскоязычных текстовых ролевых игр выявляет огромные ограничения. Модели, обученные на общих корпусах, не справляются с этими задачами в русскоязычной среде, в связи с ограничениями:
1) Лексическое однообразие. Модели склонны к тавтологии и общим повторениям, что делает нарратив предсказуемым, а опыт игры монотонным;
2) Невозможность сохранять заданный сеттинг и/или характер персонажа. По мере генерации текста теряются уникальные черты жанра и модель «забывает» ключевые параметры мира;
3) Творческая ограниченность. Трудности с адаптацией под конкретные ситуации и недостаточность информации о русской культуре, фольклоре или колоритных персонажах.
Целью исследования является улучшение производительности моделей в сфере текстовых RPG. 
Работа восполняет дефицит русскоязычных жанровых датасетов для LLM. Новизна заключается в создании полусинтетического датасета, направленного на генерацию атмосферных описаний локаций киберпанка для лексического разнообразия модели. Теоретическая база — работы по корпусной лингвистике, управлению LLM, методов тонкой настройки (fine-tuning) и управления генерацией LLM (prompt engineering), и литературоведческие статьи, направленные на изучение текстовых RPG.
Методология включает анализ жанровых особенностей киберпанка.
Структура датасета такова: название локации — соответствующее эстетике киберпанка; описание — атмосферное описание, направленное на лексическое разнообразие; население и бестиарий — характеристики уникальных обитателей мира; религия и мифология — описание культов, городских легенд и идеологий (промпт для генерации изображения — позволяющий мультимодальное обучение модели). Созданный датасет будет опубликован на портале Hugging Face, что позволит исследователям и разработчикам текстовых игр использовать его для дообучения моделей. Качество планируется оценить по метрикам количества сюжетных точек — ключевых событий и их плотности на единицу текста и длины актов — измерения в словах пропорции между сюжетными точками.