XXIX Открытая конференция студентов-филологов в СПбГУ

Автоматическое распознавание жестов в мультимодальных корпусах

Мария Александровна Петровская
Докладчик
студент 4 курса
Национальный исследовательский университет «Высшая школа экономики»

Ключевые слова, аннотация

Работа посвящена разработке модели автоматического распознавания жестов в мультимодальных корпусах на основе типологии Мультимедийного русского корпуса (МУРКО). Существующие системы ориентированы на статичные позы кисти и не классифицируют жесты по дискурсивным функциям. Цель — создать инструмент распознавания жестов дискурса (дейктические, изобразительные, риторические и др.). Создан размеченный датасет видеофрагментов (опубликован на Hugging Face), проведены эксперименты с моделями компьютерного зрения.

Тезисы

Ключевые слова: автоматическое распознавание жестов; мультимодальные корпуса; МУРКО; компьютерное зрение

Современные системы распознавания жестов ориентированы на изолированные статические позы и плохо адаптированы для анализа спонтанной жестикуляции, сопровождающей естественную речь. В связи с этим актуальной является задача разработки модели, способной классифицировать жесты по их дискурсивным функциям, а не только по форме кисти.
Цель настоящего исследования — создание инструмента распознавания функциональных типов жестов согласно классификации Мультимедийного русского корпуса (МУРКО). Гипотеза состоит в том, что использование методов детекции поз с дообучением на размеченных данных и переход от покадрового анализа к анализу видеопоследовательностей позволит повысить качество классификации по сравнению с подходами, основанными на одном кадре.
Материалом послужил корпус из 18 видеозаписей (интервью, подкасты, лекции) с 18 говорящими из 11 профессиональных групп, содержащий 1140 жестов с ручной разметкой. На его основе создан датасет из 101 видеофрагмента по восьми типам жестов: дейктические, декоративные, изобразительные, поисковые, регулирующие, риторические жесты, жесты внутреннего состояния и речевые действия. Датасет опубликован на платформе Hugging Face (mapetrovska/gesturedataset).
В ходе исследования был проведен первичный эксперимент с использованием готового пайплайна MediaPipe Gesture Recognizer. Модель тестировалась в режиме покадровой обработки видео со стандартными параметрами (пороги обнаружения и отслеживания — 0,5). Результат показал, что MediaPipe распознает лишь семь предустановленных классов, описанных в терминах формы кисти (Closed_Fist, Open_Palm, Pointing_Up, Thumb_Down, Thumb_Up, Victory, ILoveYou), и не способен классифицировать жесты по их дискурсивным функциям. Дополнительно был проведен сравнительный анализ моделей SigLIP, ViT и EVA-CLIP. Выявлено, что SigLIP и ViT работают только со статическими изображениями, а EVA-CLIP при обработке видео использует лишь один центральный кадр (согласно документации разработчиков). Такой подход недостаточен для распознавания жеста как динамического знака.
Таким образом, ключевой проблемой исследования является переход от покадровой обработки к анализу видеопоследовательностей. Предполагается, что использование нескольких кадров повысит качество классификации функциональных типов жестов по сравнению с подходом на основе одного кадра.