XXIX Открытая конференция студентов-филологов в СПбГУ

Автоматическое определение дипфейков по аудио- и видеосигналу

Егор Алексеевич Редькин
Докладчик
магистрант 2 курса
Санкт-Петербургский государственный университет

Ключевые слова, аннотация

Доклад посвящен сопоставлению экспертного (лингвистического, биометрического) и инженерного подходов к детекции дипфейков в аудио- и видеосигналах. Материалом исследования послужили записи из открытых датасетов, включая Celeb DF (v.2), MLAAD и др. Результаты демонстрируют, что применение фонетических знаний (MFCC) и биометрических характеристик (нормализованные расстояния, корреляционные матрицы лицевых точек) позволяет достичь более высокой точности классификации по сравнению с использованием только нейросетевых эмбеддингов, что подтверждает ценность междисциплинарного подхода.

Тезисы

Ключевые слова: дипфейк; мультимодальный подход; лицевые точки; акустические признаки

С развитием технологий искусственного интеллекта синтез реалистичных видеоизображений (дипфейки) перестал быть прерогативой специалистов и стал общедоступным инструментом, что привело к его активному использованию не только в развлекательных, но и в мошеннических целях. Это обусловливает высокую актуальность разработки надежных методов автоматической детекции такого контента. Целью исследования является сопоставление эффективности двух подходов к детекции дипфейков: экспертного (лингвистического и биометрического) и инженерного.
Материалом для исследования послужили аутентичные и искусственно сгенерированные видеозаписи из общедоступных датасетов ASVSpoof 2019, MLAAD, Silero Dataset, XMAD Bench общим объемом 22000 аудиофайлов, а также датасет Celeb DF (v.2), включающий образцы с заменой лиц. Все аудиоданные были унифицированы до односекундных речевых фрагментов с помощью системы Silero VAD. Для обработки видеоряда Celeb DF извлекались координаты лицевых точек, на основе которых рассчитывались два типа признаков: корреляционные матрицы, отражающие созависимость движений различных областей лица, и нормализованные расстояния между ключевыми биометрическими ориентирами. Для аудиосигнала применялись два подхода: экспертный (расчет MFCC, мел-спектрограмм и т. д.) и автоматический (извлечение эмбеддингов с помощью модели Wav2Vec). 
Классификация осуществлялась с использованием трех архитектур нейросетей (полносвязная, 1D CNN и гибридная LSTM-CNN).
В результате было выявлено, что для аудиосигнала экспертные акустические признаки в сочетании с простым полносвязным классификатором значительно превосходят по качеству детекции автоматические эмбеддинги (AUC 0,936 против 0,745). При анализе видео на датасете Celeb DF было установлено, что биометрические признаки (нормализованные расстояния) и корреляционные матрицы, позволяют эффективно обнаруживать синтезированные сигналы.
Анализ показал, что интерпретируемые признаки, основанные на лингвистических и биометрических знаниях, обеспечивают более высокую точность детекции дипфейков по сравнению с «сырыми» нейросетевыми эмбеддингами, особенно при ограниченных вычислительных ресурсах и нацеленности на конкретные типы артефактов. Полученные выводы подтверждают необходимость привлечения экспертов в области фонетики и биометрии для разработки робастных систем противодействия синтезированному контенту и служат основой для дальнейших исследований, направленных на создание мультимодальных детекторов, комбинирующих различные типы признаков.