Исследователи факультета ВМК МГУ имени М.В. Ломоносова разработали программный комплекс для тестирования робастности мультимодальных больших языковых моделей (MLLMs). Эти модели, обрабатывающие как текстовую, так и визуальную информацию, находят широкое применение в виртуальных ассистентах и интеллектуальных поисковых системах. Однако по мере роста их популярности увеличивается и риск появления уязвимостей.
Инструмент, созданный специалистами факультета ВМК МГУ, предназначен для оценки робастности MLLMs к визуальным атакам — незаметным для человека изменениям изображений, способным вызвать некорректное поведение модели. В ходе экспериментов анализировалась реакция моделей на различные виды искажений, вносимых исключительно во входные визуальные данные. Эксперименты включали как целевые атаки, направленные на принуждение модели к выдаче конкретного ошибочного результата, так и нецелевые, вызывающие общее ухудшение качества генерации без заранее заданного результата. Искажения вносились в участки изображения, играющие ключевую роль в формировании ответа модели, что позволило оценить ее чувствительность к малым визуальным изменениям.
«Состязательные атаки на мультимодальные модели — реальная угроза. Например, небольшой элемент на одежде может сделать человека незаметным для алгоритма видеонаблюдения, а незначительное изменение изображения — полностью изменить смысл сгенерированного текста», — рассказала Юлия Задорожная, одна из авторов исследования, магистрант кафедры информационной безопасности ВМК МГУ.
Исследование было сосредоточено на трех ключевых задачах обработки мультимодальных данных:
— генерация описания изображения (image captioning);
— локализация объектов по текстовому описанию (referring expression comprehension);
— ответы на вопросы по изображению (visual question answering).
Для тестирования были использованы популярные в исследовательском сообществе датасеты — COCO, Flickr30k и VQAv2, а также соответствующие задачам метрики (BLEU-4, CIDEr, IoU, VQA-Accuracy), позволяющие количественно оценить точность работы моделей до и после воздействия атак.
«Уязвимости в MLLM могут привести к реальным последствиям — от сравнительно безобидных, таких как некорректное описание изображений, до угроз утечки данных и эскалации привилегий. Это наиболее опасно для систем, принимающих решения», — пояснил Булат Нутфуллин, аспирант кафедры информационной безопасности ВМК МГУ.
Созданный инструмент обладает модульной архитектурой, поддерживает переносимость между различными вычислительными средами и позволяет автоматизировать многие аспекты тестирования. Он превосходит аналоги по количеству реализованных сложных атак и представляет собой ценный ресурс для разработчиков и специалистов по информационной безопасности, стремящихся оценить защищенность ИИ-системы от потенциальных угроз.
«Состязательная робастность — горячая тема исследований в области безопасности ИИ. Постоянно появляются новые методы атак, как и новые модели. Эксперименты показали, что современные модели все еще уязвимы, причем различия между отдельными популярными моделями достигают десятков процентов по классическим метрикам», — рассказал руководитель исследования Леонид Дмитриев, ведущий программист лаборатории открытых информационных технологий ВМК МГУ.
Разработка была представлена на конференции «Ломоносовские чтения-2025». В настоящее время готовится к публикации полная статья, исходный код разработанного программного комплекса будет выложен в открытый доступ.
Источник информации: ВМК МГУ имени М.В. Ломоносова
Источник фото: ru.123rf.com