XXIX Открытая конференция студентов-филологов в СПбГУ

Применение алгоритмов машинного обучения для обнаружения голосовых нарушений

Софья Ильинична Курякова
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Работа посвящена применению и сравнению методов машинного и глубокого обучения для выявления голосовых патологий по записи голоса и анализу перспектив их использования в клинической и профилактической практике. Материалом послужили записи профессиональных вокалистов и данные Saarbrucken Voice Database. Использовались акустические признаки (MFCC, jitter, shimmer, HNR, CPP/CPPS). Сравнивались модели SVM, логистической регрессии, а также нейросетевые архитектуры CNN и RNN. Наилучшие результаты показали модели глубокого обучения, обеспечившие точность классификации голосовых нарушений до 83%.

Тезисы

Ключевые слова: машинное обучение; акустический анализ; певческий голос; патологии голосового аппарата; нейронные сети

Голос является основным инструментом коммуникации и вокального искусства, поэтому улучшение его качества и поддержания здоровья — одни из главнейших задач людей с голосоречевыми профессиями, таких как вокалисты, преподаватели, дикторы и пр. В связи с этим актуальным направлением для своевременной диагностики и объективной оценки работы голосового аппарата является разработка системы автоматического выявления голосовых нарушений. В данном исследовании рассматривается возможность применения акустического анализа в качестве дополнительного неинвазивного инструмента для осмотра и диагностики, дополняющего традиционные фониатрические методы. Цель настоящего исследования — провести анализ существующих методов машинного и глубокого обучения и применяемых акустических параметров, наиболее полно и точно отражающих клиническую картину.
Материалом послужил собственный корпус аудиозаписей голоса профессиональных вокалистов (двух полов, разного возраста, включая детей 10–16 лет), включающий пролонгированные гласные, пропевание фонем в различных регистрах (среднем, высоком, низком), чтение фонетически представительного текста, время максимальной фонации гласного /i/ и глиссандо. Для обучения моделей также использовалась открытая база данных голосов Saarbrucken Voice Database (SVD), включающая невокальные записи голосов в здоровом состоянии и с подтвержденными нарушениями.
Для извлечения признаков использовались мел-частотные кепстральные коэффициенты (MFCC), джиттер и шиммер, коэффициент отношения гармоник к шуму (HNR), кепстральный пик (CPP/CPPS), формантные и иные характеристики голоса. В работе были проанализированы как классические алгоритмы машинного обучения (метод опорных векторов (SVM), логистическая регрессия и др.), так и нейросетевые методы (сверточные (CNN) и рекуррентные (RNN) нейронные сети). В рамках исследования были апробированы несколько архитектур CNN и RNN, применяемых к спектральным представлениям сигнала и последовательностям акустических признаков, а также проведено сопоставление их результатов с классическими моделями.
В результате были апробированы несколько моделей для сравнения достигаемой точности классификации и обучающей способности. Наилучшие результаты показали модели глубокого обучения на основе CNN и RNN, обеспечившие точность автоматической классификации голосовых нарушений до 83%. Разрабатываемый подход с привлечением методов глубокого обучения позволит создать систему раннего выявления голосовых нарушений, учитывающую специфику певческого голосообразования и особенности профессионального вокального использования голоса.