Инженер Карл Вондрикк (Carl Vondrick) и его коллеги из Массачусетского технологического института (США) научили систему искусственного интеллекта (ИИ) визуально предсказывать будущее. Теперь, если передать ей фотографию поезда, она может представить видео, как состав начинает двигаться или «увидеть», как волны разбиваются о берег на картинке, изображающей пляж. О проекте рассказывает портал NewScientist.
«Любому роботу, который действует в нашем мире, нужно иметь некоторые базовые способности предсказывать будущее. Например, вы же не хотите, чтобы робот убрал стул, когда вы собирались на него сесть», — сказал Карл Вондрикк.
Для обучения своей системы ученые использовали два миллиона видео и изображений с сайта Flickr, показывая искусственном интеллекту такие объекты, как пляжи, поля для гольфа, вокзалы и младенцы в больнице. Эти видео представлялись системе в «сыром виде», т.е. не были помечены информацией, которая помогла бы помочь ИИ понять их.
Два миллиона видео длятся около двух лет. «Это не так много по сравнению, скажем, с опытом десятилетнего ребенка», — сказал Vondrick.
Разработчики использовали подход, называемый «соревнующиеся сети» (adversarial network). Принцип ее работы заключается в том, что одна сеть генерирует видео, а другие оценивают их реалистичность и вероятность. Иными словами, видеогенератор пытается сделать продукт, который наилучшим образом обманет другую сеть, а та, в свою очередь, постоянно оттачивает свою способность отличать сгенерированные видео от реальных.
После этого, исследователи дали системе статичные изображения, и она производила уже свои собственные микрофильмы о том, что может произойти дальше.
Система работает еще не очень уверенно. Некоторые видео, которые она генерирует, могут показаться человеку странными. Например, ИИ еще не осознает, что поезд, двинувшийся со станции, должен в конце концов выйти из кадра. Это потому, что он не имеет никаких предварительных знаний о правилах нашего мира, ему не хватает того, что мы называем здравым смыслом.
Тем не менее, работа показывает, что может быть достигнуто, когда компьютерное «зрение» сочетается с машинным обучением, объяснил Джон Даугман (John Daugman) из Кембриджа (Великобритания). Ключевым аспектом становится способность усвоить, что существует причинно-следственная структура вещей, которые происходят с течением времени. «Законы физики и природы объектов означают, что не все может случиться. Авторы показали, что эти ограничения могут быть изучены», — сказал он.
Ученые теперь работают над тем, чтобы научить систему делать более длинные видео. Карл Вондрикк говорит, что, конечно, она никогда не сможет точно предсказать, что произойдет, но может научиться показывать нам альтернативные варианты развития ситуаций.
Результаты работы могли бы оказаться полезными при создании систем безопасности — например, они могли бы распознавать неминуемое падение человека на дороге или помогать автомобилям самостоятельно предвидеть столкновение с другим объектом.
Читайте также на портале Научная Россия о том, как искусственный интеллект обыграл человека в игру го.