XXIV Открытая конференция студентов-филологов в СПбГУ

Адаптация произносительного словаря для автоматического распознавания русской спонтанной речи

Павел Андреевич Холявин
Докладчик
аспирант
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Данное исследование посвящено вопросам улучшения произносительных словарей для задач автоматического распознавания спонтанной речи. Русская разговорная речь обладает рядом сегментных особенностей, которые обычно не отражаются в нормативных произносительных словарях. Это влияет на качество автоматического распознавания. В исследовании показывается, что отражение таких особенностей, как выпадение звуков, может улучшить качество распознавания.

Тезисы

Данное исследование посвящено вопросам улучшения произносительных словарей для задач автоматического распознавания спонтанной речи. Для русской спонтанной речи в значительной степени характерен неполный тип произнесения, это значит, что реальное произнесение может сильно отличаться от нормативной транскрипции. Это имеет особенно важное значение в области автоматического распознавания речи, где знание правильного соответствия между акустическим сигналом и словами языка является ключевым. Таким образом, целью данного исследования является отражение особенностей разговорной речи в произносительных словарях систем автоматического распознавания речи и оценка качества распознавания с использованием таких модифицированных словарей.
Одной из особенностей, характерных для разговорной речи, является выпадение определённых комплексов звуков, например, упрощение произнесения суффиксов (произношение слова «значительно» как /zna'tʃitna/). В исследовании рассматривается, насколько отражение этого явления повлияет на качество распознавания речи. Важно отметить, что данная особенность легко вносится в словарь автоматически. Список контекстов, в которых возможны выпадения звуков, был составлен на основе ряда исследований особенностей русской разговорной речи и содержит 25 пунктов.
Для достижения цели был проведён ряд экспериментов. Материалом послужили записи корпуса русской разговорной речи SibLing, записанного на кафедре фонетики СПбГУ. Эксперименты проводились в инструментарии для распознавания речи Kaldi. В ходе каждого эксперимента испытывалось две версии словаря: с отражением выпадения звуков и без него. Для этого сначала на материале речи одного диктора обучалась акустическая модель, а затем модели предъявлялись тестовые слова, не входившие в обучающий материал. Для оценки качества была выбрана мера уверенности системы в правильном ответе (confidence measure). Результаты экспериментов показали, что таким образом меру уверенности можно улучшить и даже довести до 100 %, что свидетельствует о целесообразности отражения выпадений звуков в произносительном словаре.