XXIX Открытая конференция студентов-филологов в СПбГУ

Автоматическая классификация голосовых данных взрослых с нормативным и искаженным звукопроизношением: диктор-независимая оценка и кросс-языковой перенос

Иван Владимирович Гусев
Докладчик
магистрант 1 курса
Университет ИТМО

Ключевые слова, аннотация

Дизартрия как моторное речевое расстройство существенно снижает разборчивость и естественность звучащей речи и требует участия квалифицированных специалистов для диагностики. В докладе представлены результаты исследования автоматической бинарной классификации записей взрослых (нормативная речь / дизартрическая речь): диктор-независимая валидация по протоколу LTSO, расширенный набор акустических признаков, сравнение моделей MLP и XGBoost, а также эксперименты по кросс-языковому переносу.

Тезисы

Ключевые слова: дизартрия; автоматическая классификация речи; машинное обучение; кросс-языковой перенос

В работе рассматривается задача автоматической бинарной классификации записей взрослых «нормативная речь / дизартрическая речь» на основе акустических признаков. В исходной постановке (датасет на базе корпуса TORGO) использовалось разбиение по записям без контроля пересечения дикторов между обучением и тестированием, что давало завышенные метрики (порядка 0,99 по accuracy/precision/recall). Для проверки валидности реализована диктор-независимая кросс-валидация по протоколу leave-two-speakers-out (LTSO); при таком протоколе базовая CNN на усредненных MFCC показала реалистичные значения (accuracy ≈ 0,65, precision = 0,62, recall = 0,75), что подтвердило гипотезу о завышении качества при разбиении по записям.
Разработан расширенный набор акустических признаков: MFCC и производные (delta, delta-delta), спектральные дескрипторы (центроид, полоса, roll-off, flatness, contrast), энергетические и временные характеристики (RMS, ZCR), chroma-признаки — с агрегацией по времени (среднее, стандартное отклонение). На них обучены MLP и XGBoost. По протоколу LTSO MLP дал accuracy ≈ 0,87, precision = 0,83, recall = 0,98; XGBoost — порядка 0,83, 0,81, 0,97, что подтверждает эффективность расширенного признакового описания.
Обученный на английской речи классификатор протестирован на итальянском и китайском датасетах без дообучения. Точность на итальянском оказалась выше, чем на китайском, что согласуется с гипотезой о большей типологической близости английского и итальянского (индоевропейские языки) по сравнению с английским и китайским (тоновый язык). Результаты указывают на ограниченную переносимость моделей на типологически далекие языки и необходимость языковой адаптации при построении мультиязычных систем детекции речевых нарушений.
Корректная диктор-независимая валидация (LTSO) — ключевое условие достоверной оценки систем детекции дизартрии; расширенное акустическое описание и MLP/XGBoost дают заметный прирост качества и надежную основу для скрининга и мониторинга. Для внедрения в многоязычной среде нужны этапы языковой адаптации и валидации на каждом целевом языке. Предложенный подход может служить прототипом модуля автоматизированного скрининга дизартрии с возможностью дообучения на русском и других языках и интеграции в клинико-информационные системы при проведении клинических испытаний.