XXIX Открытая конференция студентов-филологов в СПбГУ

Оценка эмоциональности синтезированной речи на драматургическом материале: анализ и перспективы развития

Лолита Сергеевна Иванова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный политехнический университет

Ключевые слова, аннотация

Исследование посвящено сравнению мелодического оформления эмоциональной речи — синтезированной и естественной. На материале аудиоверсии трагедии У. Шекспира «Ромео и Джульетта» были проанализированы паттерны для двух эмоций — удивления и возмущения. В результате сопоставления аудиофрагментов, озвученных диктором, с идентичными, полученными при помощи синтезатора речи, было выявлено несоответствие паттернов, выражающееся в упрощении сложных тональных контуров. Полученные данные могут быть использованы для совершенствования технологий эмоционального синтеза.

Тезисы

Ключевые слова: эмоциональная речь; синтез речи; речевые технологии; интонационные конструкции

Синтез речи является одним из наиболее динамично развивающихся направлений на стыке искусственного интеллекта и обработки естественного языка. Ключевой проблемой остается недостаточная естественность эмоциональной составляющей синтезированной речи [Жарков, 2021]. Целью данного исследования является сравнение мелодического оформления в синтезированной и естественной речи.
Теоретическую основу для анализа интонации составила классификация Е. А. Брызгуновой, выделяющая семь типов интонационных конструкций (ИК) русского языка [Брызгунова, 1978]. Эмоциональным речевым материалом послужила аудиоверсия трагедии У. Шекспира «Ромео и Джульетта». Из произведения были вручную отобраны 45 фрагментов, выражающих удивление и возмущение. Далее эти фразы были синтезированы с помощью общедоступной TTS-системы Speechnotes. Сравнительный анализ проводился путем аудирования и визуального анализа контуров.
Для удивления было выявлено три доминирующих паттерна: ИК-5 (29,4 %), ИК-4 (26,5 %) и ИК-6 (23,5 %). Для возмущения — ИК-5 (78,3 %). Сравнительный анализ выявил полное совпадение ИК лишь в 31,1 % случаев. Наиболее частым типом ошибки (48,9 % случаев) была трансформация сложного эмоционального контура диктора в более простой, характерный для нейтральной речи. 
Проведенный анализ открывает несколько перспективных направлений для развития технологий эмоционального TTS. Во-первых, требуется развитие методов синтеза, способных воспроизводить не только паттерны нейтральной речи, но и сложные тональные контуры (такие как ИК-5, ИК-6). Во-вторых, необходимо внедрение контекстуально-семантического анализа; системы должны включать модули глубокого семантического и прагматического анализа, которые позволят определять эмоциональную окраску текста на уровне реплики, сцены и подтекста. В-третьих, ввиду нехватки качественных размеченных данных [Болдаков, 2021], важно создание специализированных эмоциональных датасетов, которые включали бы разметку по базовым эмоциям, интонационным конструкциям, степени интенсивности и контексту. 
Проведенное исследование подтвердило, что современные общедоступные системы синтеза речи, даже достигшие высокого качества в воспроизведении нейтральной речи, значительно отстают в передаче эмоциональности. На материале драматургического текста было показано, что основная проблема заключается в упрощении характерных для эмоций сложных интонационных контуров. Выявленные закономерности позволили очертить перспективы для дальнейших исследований. Таким образом, подобные системы смогут стать полноценными инструментами не только для передачи информации, но и для художественного озвучивания и более естественного взаимодействия между человеком и машиной.

Литература:
Болдаков В. С. Использование векторных представлений текста для синтеза эмоциональной речи // Вестник СибГУТИ. 2021. №4 (56). URL: https://cyberleninka.ru/article/n/ispolzovanie-vektornyh-predstavleniy-teksta-dlya-sinteza-emotsiona... (дата обращения: 15.01.2026).
Брызгунова Е. А. Звуки и интонация русской речи. М., 1978. 
Жарков Р. А. Системы компьютерного синтеза речи / Р. А. Жарков, Е. Г. Алексеев // XLIX Огаревские чтения: Материалы научной конф.: в 3 частях, Саранск, 7—13 декабря 2020 г. Т. Ч. 1. Саранск, 2021. С. 198—201.