Сотрудники Google протестировали способность программ-агентов системы искусственного интеллекта DeepMind взаимодействовать друг с другом и увидели, что когда система думает, что проигрывает, она выбирает высоко агрессивные стратегии, чтобы добиться победы, сообщает ScienceAlert.
Команда Google провела 40 млн раундов простой компьютерной игры по собиранию фруктов, которая заставляет двух агентов DeepMind конкурировать между собой, чтобы собрать как можно больше виртуальных яблок.
Оказалось, что все шло гладко, до тех пор, пока на земле валялось достаточно яблок, но как только их становилось меньше, оба агента становились агрессивными, использовали лазерные мечи, чтобы лупить друг дружку и выбить из игры. Если агент успешно поборол конкурента лазером, ему не положена дополнительная награда. Он просто выбивает противника из игры на определенный период, что позволяет победителю собрать больше яблок.
Если агенты не используют лазерные мечи, они могут теоретически собрать яблок поровну и закончить игру с равным счетом. Такую стратегию выбирают менее «умные» итерации DeepMind. Только когда ученые испытали все более сложные версии DeepMind, в игру включились саботаж, жадность и агрессия.
Ученые предположили, что чем более умный используется агент, тем более он способен учиться в виртуальном окружении, допуская все более агрессивные способы, чтобы выиграть. «Эта модель показала, что некоторые аспекты человекоподобного поведения возникают как продукт окружения и обучения. Менее агрессивные варианты возникают в процессе обучения в относительно обильной окружающей среде с меньшими возможностями для дорогостоящих действий. Жадность отражает соблазн выбить соперника и забрать все яблоки себе», — цитирует издание одного из команды Джоэля Зет Лейбо (Joel Z Leibo).
Затем ученые протестировали DeepMind с помощью видеоигры Wolfpack. Участвовали три агента: два — за волков, а один — за добычу. В отличие от собирания фруктов, в этой игре поощряется сотрудничество, потому что если два волка оказываются близко к добыче, когда ее захватили, они оба получают награду, независимо от того, кто из них схватил добычу. «Идея в том, что возникает опасность — один волк захватывает добычу, но рискует отдать тушу падальщикам. Но когда два волка схватили добычу вместе, они лучше защитят ее от падальщиков, и таким образом получат большую награду», — объяснили авторы работы.
Получается, что также как с собиранием фруктов, когда агенты DeepMind учились агрессии и эгоизму, в Wolfpack они учились тому, что кооперация может быть ключом к большему личному успеху в некоторых ситуациях.
[Иллюстрация: John Chae]