Разработка датасета для обогащения словарного запаса генеративных моделей в задачах текстовых RPG
Анастасия Андреевна Бородина
Докладчик
студент 2 курса
Национальный исследовательский университет «Высшая школа экономики»
Национальный исследовательский университет «Высшая школа экономики»
Ключевые слова, аннотация
Настоящее
исследование посвящено созданию полусинтетического датасета для тонкой
настройки больших языковых моделей в сфере русскоязычных текстовых RPG. На основе метода few-shot learning и техник аугментации сгенерирован
структурированный датасет с локациями для обучения LLM контекстуальной уместности,
лексическому разнообразию в жанре киберпанка.
Тезисы
Ключевые
слова: текстовые RPG; LLM; полусинтетический датасет; киберпанк
Сейчас LLM хорошо генерируют тексты на английском языке, однако их применение для создания сценариев русскоязычных текстовых ролевых игр выявляет огромные ограничения. Модели, обученные на общих корпусах, не справляются с этими задачами в русскоязычной среде, в связи с ограничениями:
1) Лексическое однообразие. Модели склонны к тавтологии и общим повторениям, что делает нарратив предсказуемым, а опыт игры монотонным;
2) Невозможность сохранять заданный сеттинг и/или характер персонажа. По мере генерации текста теряются уникальные черты жанра и модель «забывает» ключевые параметры мира;
3) Творческая ограниченность. Трудности с адаптацией под конкретные ситуации и недостаточность информации о русской культуре, фольклоре или колоритных персонажах.
Целью исследования является улучшение производительности моделей в сфере текстовых RPG.
Работа восполняет дефицит русскоязычных жанровых датасетов для LLM. Новизна заключается в создании полусинтетического датасета, направленного на генерацию атмосферных описаний локаций киберпанка для лексического разнообразия модели. Теоретическая база — работы по корпусной лингвистике, управлению LLM, методов тонкой настройки (fine-tuning) и управления генерацией LLM (prompt engineering), и литературоведческие статьи, направленные на изучение текстовых RPG.
Методология включает анализ жанровых особенностей киберпанка. Структура датасета такова: название локации — соответствующее эстетике киберпанка; описание — атмосферное описание, направленное на лексическое разнообразие; население и бестиарий — характеристики уникальных обитателей мира; религия и мифология — описание культов, городских легенд и идеологий (промпт для генерации изображения — позволяющий мультимодальное обучение модели). Созданный датасет будет опубликован на портале Hugging Face, что позволит исследователям и разработчикам текстовых игр использовать его для дообучения моделей. Качество планируется оценить по метрикам количества сюжетных точек — ключевых событий и их плотности на единицу текста и длины актов — измерения в словах пропорции между сюжетными точками.
Сейчас LLM хорошо генерируют тексты на английском языке, однако их применение для создания сценариев русскоязычных текстовых ролевых игр выявляет огромные ограничения. Модели, обученные на общих корпусах, не справляются с этими задачами в русскоязычной среде, в связи с ограничениями:
1) Лексическое однообразие. Модели склонны к тавтологии и общим повторениям, что делает нарратив предсказуемым, а опыт игры монотонным;
2) Невозможность сохранять заданный сеттинг и/или характер персонажа. По мере генерации текста теряются уникальные черты жанра и модель «забывает» ключевые параметры мира;
3) Творческая ограниченность. Трудности с адаптацией под конкретные ситуации и недостаточность информации о русской культуре, фольклоре или колоритных персонажах.
Целью исследования является улучшение производительности моделей в сфере текстовых RPG.
Работа восполняет дефицит русскоязычных жанровых датасетов для LLM. Новизна заключается в создании полусинтетического датасета, направленного на генерацию атмосферных описаний локаций киберпанка для лексического разнообразия модели. Теоретическая база — работы по корпусной лингвистике, управлению LLM, методов тонкой настройки (fine-tuning) и управления генерацией LLM (prompt engineering), и литературоведческие статьи, направленные на изучение текстовых RPG.
Методология включает анализ жанровых особенностей киберпанка. Структура датасета такова: название локации — соответствующее эстетике киберпанка; описание — атмосферное описание, направленное на лексическое разнообразие; население и бестиарий — характеристики уникальных обитателей мира; религия и мифология — описание культов, городских легенд и идеологий (промпт для генерации изображения — позволяющий мультимодальное обучение модели). Созданный датасет будет опубликован на портале Hugging Face, что позволит исследователям и разработчикам текстовых игр использовать его для дообучения моделей. Качество планируется оценить по метрикам количества сюжетных точек — ключевых событий и их плотности на единицу текста и длины актов — измерения в словах пропорции между сюжетными точками.