Исследователи ВМК МГУ совместно с коллегами из ведущих мировых университетов и исследовательских центров организовали соревнование по предсказанию карт визуального внимания в рамках AIM 2024 — крупнейшего воркшопа по обработке изображений и видео на конференции ECCV 2024. В соревновании приняли участие ведущие команды со всего мира, разрабатывая алгоритмы, способные точно предсказывать зоны внимания зрителей в видеоконтенте. По итогам были определены победители, а лучшие методики опубликованы в научной статье.
Современные технологии видеоанализа требуют всё более точных методов обработки визуальной информации. Одной из ключевых задач в этой области является предсказание карт внимания – определение областей изображения, на которые зритель обращает внимание в первую очередь. Такие технологии находят применение в сжатии видео, оценке качества контента, рекламе, пользовательских интерфейсах, а также когнитивных исследованиях.
Для развития и тестирования новых алгоритмов учёные ВМК МГУ и их международные партнёры организовали соревнование AIM 2024 по предсказанию карт визуального внимания. Основной целью соревнования стало тестирование современных подходов к анализу зрительного внимания и выявление наиболее эффективных решений, которые смогут использоваться в практических приложениях.
Как отметил Дмитрий Ватолин, заведующий Лабораторией компьютерной графики и мультимедиа ВМК МГУ и один из организаторов соревнования, предсказание внимания зрителя является сложной, но крайне важной задачей, поскольку помогает создать более адаптивные и интеллектуальные видеосистемы.
Для тестирования алгоритмов был предоставлен специализированный аудиовизуальный набор данных AViMoS, содержащий 1500 видеозаписей, на которых более 70 наблюдателей отслеживали курсором наиболее интересные участки изображения. Такой метод краудсорсингового сбора данных доказал свою эффективность в сравнении с классическими eye-tracking системами.
В соревновании приняли участие более 30 команд, из которых 7 дошли до финального этапа, представив свои решения на закрытом тестовом наборе данных. Качество предсказаний оценивалось по таким параметрам, как точность различения салиентных и несалиентных областей, корреляция алгоритма с реальными данными, сходство распределений внимания и пространственная значимость предсказанных карт.
Дмитрий Ватолин подчеркнул, что исследование позволило протестировать широкий спектр решений, основанных на современных методах глубокого обучения.
Победителем соревнования стала команда CV_MM, представившая модель UMT (Unmasked Teacher) с гибкой системой декодирования и использованием информации из разных уровней разрешения. Второе место заняла VistaHL, предложившая инновационную двухпотоковую архитектуру, а третье — команда PeRCeiVe Lab, разработавшая многопоточный подход к анализу карт внимания.
Исследователи отметили, что трансформеры оказались эффективнее традиционных свёрточных сетей в анализе долгосрочных зависимостей в видео. Было показано, что аудиовизуальные модели, использующие звук, улучшают точность предсказаний, но требуют значительных вычислительных ресурсов. Гибридные методы обработки информации позволяют комбинировать данные на разных уровнях разрешения, повышая точность предсказаний.
Как подчеркнул Дмитрий Ватолин, соревнование дало важные результаты, которые помогут в дальнейшем совершенствовании алгоритмов предсказания внимания зрителей, сделав их более точными и вычислительно эффективными.
Результаты соревнования и подробные описания моделей участников опубликованы в совместной статье «AIM 2024 Challenge on Video Saliency Prediction: Methods and Results».
Источник информации: ВМК МГУ имени М.В. Ломоносова
Источник фото: Елена Либрик / «Научная Россия»