Информатики Санкт-Петербургского государственного университета и Санкт-Петербургского федерального исследовательского центра РАН проверили, насколько эффективно текстовые капчи могут защищать от воздействия вредоносных программ. Они создали нейросеть, которая смогла распознать такую защиту, подвергшуюся более чем 20 искажениям, и доказали, что этот метод небезопасен. Результаты исследования опубликованы в «Научно-техническом вестнике информационных технологий, механики и оптики».
Капча (CAPTCHA) — это компьютерный тест, который используется для определения, человек или компьютер использует систему или пытается попасть на какой-либо сайт. Основной смысл такого метода защиты в том, чтобы предложить пользователю задачу, которую легко может решить человек и которая вызывает затруднения у компьютера. Например, напечатать символы, изображенные в искаженном виде, или отметить на фотографиях определенные объекты, часто встречающиеся в жизни человека: светофоры, велосипеды и другое. Как правило, выполнить эту задачу может только человек, поскольку искусственный интеллект плохо различает искаженные объекты.
Быстрое развитие технологий искусственного интеллекта поставило под сомнение эффективность такого теста как инструмента защиты от вредоносных программ. Так, некоторые технологии ИИ уже способны распознать необходимые объекты, даже несмотря на искажения. Сегодня ученые активно изучают такие технологии и алгоритмы, чтобы оценить эффективность капчи и, возможно, предложить более сложные варианты заданий, чтобы более точно понимать, что пользователь — человек.
«Предложенный нами метод позволяет учить систему — решатель капчи на наборе данных (датасете) из небольшого числа изображении. Одна из значительных проблем при работе с моделями искусственного интеллекта — это сбор датасета, достаточного для обучения объема. Основное отличие нашего подхода от аналогов в том, что он позволяет распознавать гораздо более сложные текстовые тесты, в которых содержится более 20 искажений сразу (изменение размеров и интервалов между буквами, создание "шума", наложение элементов друг на друга и другие)», — рассказала старший преподаватель СПбГУ (кафедра информатики) Анастасия Корепанова.
Подход ученых СПбГУ состоит из двух больших этапов: сначала потребовалось дополнить модель генерацией изображений, чтобы увеличить датасет — тот объем данных, который позволит системе в дальнейшем решать задачу. Второй шаг предполагает обучение модели на полученном наборе данных.
Разработка информатиков Санкт-Петербургского университета позволила даже на основании ограниченного набора данных распознать 63% искаженных изображений, предлагаемых в качестве компьютерного текста. По мнению ученых, этот показать говорит о небезопасности сайтов, использующих подобный вид капчи.
«Результаты исследования могут применяться для улучшения безопасности интернет-ресурсов. При обращении внимания специалистов по информационной безопасности на уязвимости, выявленные в ходе исследования, могут быть эффективнее доработаны методы распознавания и обхода капчи и на этой основе разработаны улучшенные алгоритмы защиты от автоматизированных атак», — поделился руководитель лаборатории теоретических и междисциплинарных проблем информатики (ЛТиМПИ) СПб ФИЦ РАН Максим Абрамов.
Информация и фото предоставлены пресс-службой СПбГУ