Систему для выявления голосовых дипфейков создали в НИЯУ МИФИ

20.08.2025 13:15

1158

Дмитрий Валерьевич Ефанов. Фото предоставлено пресс-службой НИЯУ МИФИ

Ученые НИЯУ МИФИ разработали интеллектуальную систему, которая способна определять голосовые дипфейки. Ее назвали «Сипуха» в честь птицы отряда совообразных, отличающейся острым слухом. Система использует нейронную сеть, обученную на более чем 200 тыс. записей голосов: настоящих и синтезированных.

Проблема голосовых дипфейков встала особенно остро в последние два года, когда мошенники начали использовать искусственный интеллект для создания поддельных записей. В перспективе система способна сигнализировать потенциальной жертве о том, что с ней разговаривает не знакомый человек, а похожий голос, синтезированный цифровыми алгоритмами.

«Мы занялись этой проблемой в 2022 г., когда дипфейки еще не были так распространены. Изначально работа была посвящена задачам голосовой биометрии. Потом возникло понимание, что подобные технологии возможно эффективно использовать для борьбы с дистанционным мошенничеством. Мы создали набор данных, который включает голоса настоящих людей и синтезированные записи. На этих данных мы обучили нейросеть определять настоящие и поддельные голоса. Чтобы использовать функцию распознавания в проектах, мы разработали библиотеку pyara», ― рассказал корреспонденту портала «Научная Россия» автор разработки, доцент кафедры «Криптологии и кибербезопасности» НИЯУ МИФИ Дмитрий Ефанов.

Чтобы определить, синтезирована ли запись, нейросеть анализирует кепстральные коэффициенты ― определенные математические характеристики аудиосигналов. Потенциально программа сможет выявлять фейки в течение нескольких секунд. Дмитрий Ефанов отметил, что голос ― это очень сложное явление, а на синтезированный голос могут накладываться шумы и помехи, осложняющие анализ. При этом в России пока нет подобных программ, массово доступных на рынке. Отдельные решения в области автоматизированного распознавания голоса доступны только крупным корпорациям. В перспективе система может стать облачным сервисом, который разработчики смогут подключать к собственным проектам для определения подлинности голоса. Особенно полезна такая функция может быть в колл-центрах или мессенджерах.

«Надо понимать, что технологии клонирования голоса быстро развиваются, поэтому «Сипуха» ― не абсолютное оружие против мошенников, а инструмент, который снижает вероятность успешной атаки. Информационные системы можно поделить на два вида: на те, где человек общается с «бездушной» системой (голосовая биометрия, «умный» дом, голосовые помощники, беспилотные автомобили) и те, где пользователи общаются друг с другом (мессенджеры, колл-центры). Прежде всего, мы ориентируемся на колл-центры банков. На базе банков сейчас создаются коммерческие биометрические системы, то есть банки могут использовать голосовую биометрию, чтобы улучшить клиентский опыт. К этим системам можно подключить функцию определения голосовых дипфейков, которая должна практически в реальном времени подсказывать оператору, кто с ним разговаривает: подлинный голос, или цифровой отпечаток голоса клиента, от имени которого мошенники пытаются выполнить операцию», ― рассказал Дмитрий Ефанов.

Ученый добавил, что подобные решения постоянно развиваются, и невозможно один раз написать программу и выпустить ее на рынок. Команда под руководством Дмитрия Ефанова продолжает исследовать кепстральные коэффициенты и расширяет набор данных, на которых продолжает обучать нейросеть.

Новость подготовлена при поддержке Министерства науки и высшего образования РФ

Фото предоставлено пресс-службой НИЯУ МИФИ

Автор Александр Бурмистров

Оператор Павел Прощенко