Тодд Эстер (Todd Hester), сотрудник лаборатории Google DeepMind в Лондоне и компьютерный специалист Питер Стоун (Peter Stone) из университета Техаса в Остине совместно научились делать роботов очень любопытными. Их статью об этом, опубликованную в журнале Artificial Intelligence, пересказывает журнал Science. В основе лежит метод «обучения с подкреплением», когда за действия, ведущие к нужному результату, ученик получает вознаграждение. Конечно, в случае с роботами речь идет не о физической награде, а о запрограммированном «удовлетворении». На этом принципе были построены AI, научившиеся обыгрывать людей в классические компьютерные игры Atari и в го.

Однако тогда речь шла о внешнем вознаграждении, так что назвать этих роботов любопытными было нельзя. Поэтому Эстер и Стоун пошли дальше и разработали алгоритм TEXPLORE-VENIR, название которого в переводе с английского означает «Целенаправленное исследование с внутренним вознаграждением за изменчивость и новизну». Этот алгоритм позволяет AI самому вознаграждать себя за получение какой-то новой информации, или за уменьшение неопределенности ситуации, в которой робот находится. Таким образом, он по чисто внутренним причинам «хочет» узнавать больше и осваиваться в окружающем мире.

Авторы статьи испытали свое детище в двух сериях экспериментов. В первой из компьютерная программа «бродила» по виртуальному лабиринту из четырех комнат, соединенных закрытыми дверями. Бот должен был каждый раз найти в комнате ключ, поднять его и открыть очередную дверь. За каждую открытую дверь программа получала 10 баллов, и имела 3000 ходов, чтобы набрать их максимальное количество. Если перед тем, как закрыть виртуальные двери, исследователи позволяли программе изучить лабиринт с помощью алгоритма TEXPLORE-VENIR, она набирала в среднем 55 баллов (попыток было несколько). А при использовании других алгоритмов этот показатель составлял только от 0 до 35 баллов. Если же исследовать лабиринт и открывать двери приходилось одновременно, бот с TEXPLORE-VENIR набирал по 70 баллов, а с другими алгоритмами — менее пяти.

Во второй серии экспериментов алгоритм гуманоидный робот Nao, хотя и ростом всего в 50 сантиметров, получал баллы, ударяя в цимбалы, поднимая розовую ленту на уровень своих «глаз» или нажимая кнопку ногой — при этом он заранее не знал, что все это нужно делать. В каждой попытке у Nao было 400 шагов, чтобы заработать максимальное количество баллов. Половину попыток робот проходил, опираясь на встроенный алгоритм Эстера и Стоуна, а другую половину — без него. В результате, в первом случае робот также получал заметно больше баллов чем во втором. Например, Nao нажал ногой на кнопку в семи попытках из 13 с TEXPLORE-VENIR и ни разу — если он занимался исследованиями бессистемно.

Полученные результаты выглядят многообещающе, однако Эндрю Барто (Andrew Barto), компьютерщик из Массачусетского университета в Амхерсте считает, что иногда любопытство отчасти мешало роботам набрать максимальное количество баллов, отвлекая их от цели. Необходимо найти правильный баланс между внешним вознаграждением и внутренним в процессе машинного обучения, подчеркнул он.