Ученые НИЯУ МИФИ разработали интеллектуальную систему, которая способна определять голосовые дипфейки. Ее назвали «Сипуха» в честь птицы отряда совообразных, отличающейся острым слухом. Система использует нейронную сеть, обученную на более чем 200 тыс. записей голосов: настоящих и синтезированных.
Проблема голосовых дипфейков встала особенно остро в последние два года, когда мошенники начали использовать искусственный интеллект для создания поддельных записей. В перспективе система способна сигнализировать потенциальной жертве о том, что с ней разговаривает не знакомый человек, а похожий голос, синтезированный цифровыми алгоритмами.
«Мы занялись этой проблемой в 2022 г., когда дипфейки еще не были так распространены. Изначально работа была посвящена задачам голосовой биометрии. Потом возникло понимание, что подобные технологии возможно эффективно использовать для борьбы с дистанционным мошенничеством. Мы создали набор данных, который включает голоса настоящих людей и синтезированные записи. На этих данных мы обучили нейросеть определять настоящие и поддельные голоса. Чтобы использовать функцию распознавания в проектах, мы разработали библиотеку pyara», ― рассказал корреспонденту портала «Научная Россия» автор разработки, доцент кафедры «Криптологии и кибербезопасности» НИЯУ МИФИ Дмитрий Ефанов.
Чтобы определить, синтезирована ли запись, нейросеть анализирует кепстральные коэффициенты ― определенные математические характеристики аудиосигналов. Потенциально программа сможет выявлять фейки в течение нескольких секунд. Дмитрий Ефанов отметил, что голос ― это очень сложное явление, а на синтезированный голос могут накладываться шумы и помехи, осложняющие анализ. При этом в России пока нет подобных программ, массово доступных на рынке. Отдельные решения в области автоматизированного распознавания голоса доступны только крупным корпорациям. В перспективе система может стать облачным сервисом, который разработчики смогут подключать к собственным проектам для определения подлинности голоса. Особенно полезна такая функция может быть в колл-центрах или мессенджерах.
«Надо понимать, что технологии клонирования голоса быстро развиваются, поэтому «Сипуха» ― не абсолютное оружие против мошенников, а инструмент, который снижает вероятность успешной атаки. Информационные системы можно поделить на два вида: на те, где человек общается с «бездушной» системой (голосовая биометрия, «умный» дом, голосовые помощники, беспилотные автомобили) и те, где пользователи общаются друг с другом (мессенджеры, колл-центры). Прежде всего, мы ориентируемся на колл-центры банков. На базе банков сейчас создаются коммерческие биометрические системы, то есть банки могут использовать голосовую биометрию, чтобы улучшить клиентский опыт. К этим системам можно подключить функцию определения голосовых дипфейков, которая должна практически в реальном времени подсказывать оператору, кто с ним разговаривает: подлинный голос, или цифровой отпечаток голоса клиента, от имени которого мошенники пытаются выполнить операцию», ― рассказал Дмитрий Ефанов.
Ученый добавил, что подобные решения постоянно развиваются, и невозможно один раз написать программу и выпустить ее на рынок. Команда под руководством Дмитрия Ефанова продолжает исследовать кепстральные коэффициенты и расширяет набор данных, на которых продолжает обучать нейросеть.
Новость подготовлена при поддержке Министерства науки и высшего образования РФ
Фото предоставлено пресс-службой НИЯУ МИФИ