Российские ученые предложили способ защитить голосовые записи от автоматического сбора биометрии и создания поддельных аудиоконтентов, сохраняя при этом естественную речь.
Эксперты из лаборатории безопасного ИИ AIRI-МТУСИ разработали алгоритм, который скрывает индивидуальные особенности голоса в подкастах, интервью и прямых трансляциях. В основе решения лежат математические методы, ранее применявшиеся в визуальном анализе, — они «стирают» голосовой почерк и препятствуют нейросетям собирать биометрические данные для дипфейков.
Новое программное обеспечение позволяет обрабатывать аудиофайлы любой продолжительности: от коротких цитат до длинных лекций. При этом техника минимально влияет на чистоту звука, разборчивость речи и ощутимо не ухудшает пользовательский опыт.
Разработчики протестировали алгоритм на базе набора записей знаменитостей VoxCeleb2, популярного при создании голосовых ИИ и дипфейков. Испытания подтвердили, что новая методика защищает данные на уровне существующих решений, но оставляет качество звука гораздо выше.
Руководитель лаборатории Олег Рогов подчеркнул, что задача разработчиков — дать авторам контента возможность свободно делиться аудиоматериалами без опасений, что их голос будут злоупотреблять. Доступ к алгоритму открыт на платформе AIRI, что позволит владельцам онлайн-площадок без дополнительных затрат интегрировать защиту в свои сервисы.

