Молодой человек играет в компьютерную игру. По экрану хаотически движутся шарики с порядковыми номерами, и его задача — за определенное время отметить их цветом в нужной последовательности. Обычное дело, задачка для младшего школьника. Отличие в том, что руки человека лежат на столе. Мышки нет, клавиатуры тоже. На экране все происходит с помощью его взгляда. Возможность бесконтактного взаимодействия с машиной открывает огромные перспективы, но с ней сопряжены и немалые сложности. Об этом мы беседуем с Сергеем Львовичем Шишкиным, кандидатом биологических наук, начальником лаборатории нейрокогнитивных технологий Курчатовского комплекса НБИКС-природоподобных технологий, где эти технологии и разрабатываются.
Сергей Львович, расскажите, пожалуйста, об исследованиях, которые проводятся в вашей лаборатории.
В нашей лаборатории идут исследования, связанные с разработкой фундаментальных основ нейрокогнитивных технологий. Они касаются и того, чем непосредственно занимаемся я и моя группа, — управления с помощью взгляда и интерфейса «мозг— компьютер», называемого также «нейроинтерфейс». Кроме того, сотрудники лаборатории разрабатывают роботов, которые взаимодействуют с человеком на эмоциональном уровне, и системы углубленного анализа состояния мозга человека, предназначенные для самых различных задач.
Вы сказали о возможности двигать предметы взглядом. Телекинез — мечта любого человека. Неужели вы это разработали?
Нет. конечно, это не телекинез. То, чем мы занимаемся, — это, прежде всего, мечта людей с нарушениями двигательной системы, которые не могут использовать обычные способы взаимодействия. Однако уже появился интерес к расширению возможностей обычного человека по взаимодействию с компьютерами, роботами с помощью средств, которые не требуют использования рук и вообще совершения телесных движений.
Нечто подобное, по-моему, было у Стивена Хокинга?
Ему предлагали использовать такого рода технологии, но он предпочитал гораздо более простой интерфейс, лучше отработанный на тот момент — работающий за счет остаточных движений некоторых мышц.
А вы делаете такие?
У нас несколько иная задача. Представим, что мы работаем с компьютером и с помощью мышки кликаем по ссылкам, экранным кнопкам и каждый раз при этом смотрим в сторону этих ссылок и кнопок. Это обычная ситуация. Но возникает естественный вопрос: может быть, нам просто проследить, куда человек смотрит, и клик будет происходить именно в этом месте? Это нетривиальная задача, потому что мы смотрим не только тогда, когда хотим произвести какое-то действие, но и когда просто рассматриваем то, что есть на экране, читаем текст или ищем нужную информацию. И мы должны отличать те случаи, когда человек смотрит просто так, от тех, когда он смотрит, чтобы выполнить действие.
Иногда человек смотрит с ненавистью на какой-либо объект. Не означает ли это, что в перспективе можно будет взглядом навредить другому объекту, уничтожить его?
Для этого, наверное, нужны совсем другие технологии. А что касается тех, о которых я говорю, они существуют давно, есть и коммерческие системы, которые могут использовать больные люди. Они были очень дорогими, но сейчас быстро дешевеют. Более того, если у вас установлена Windows 10 и вы делали в последнее время обновление, вы можете зайти в настройки и найти там средства управления с помощью взгляда. Вам остается только подключить устройство, которое будет считывать ваш взгляд, так называемый айтрекер. Фактически это просто видеокамеры с инфракрасной подсветкой плюс специальный алгоритм, который после некоторой калибровки системы может определить, куда вы смотрите, по тому, где находится ваш зрачок, и на основе этих данных можно создать в том числе средство для такого клика. Но есть и особенность. Мы пытаемся сделать алгоритмы взаимодействия с помощью взгляда как можно более естественными, чтобы человеку не нужно было входить в специальное состояние или производить какие-то дополнительные действия.
Особой сосредоточенности?
Обычно при этом нужно делать что-то не совсем привычное, что не всегда дается легко. А мы хотим, чтобы человеку, особенно инвалиду, совсем не нужно было напрягаться. Он должен просто выполнять свою задачу, прилагая как можно меньше усилий. Тут мы руководствуемся идеями, когда- то заложенными Дугласом Энгельбартом, придумавшим все основные средства человеко-компьютерного взаимодействия, которыми мы сейчас пользуемся: мышки, клавиатуры, экранный графический интерфейс, гипертекст. Его идеи заключались в том, что чем меньше усилий прилагают люди, взаимодействуя с техническим устройством и вообще с внешней, искусственно создаваемой средой, тем успешнее они могут осуществлять это взаимодействие. Энгельбарт даже провел эксперимент — привязал к карандашу кирпич и попробовал им писать, чтобы посмотреть, сколько времени на это уйдет. Оказалось, что это очень сильно замедляет процесс, более того, написание даже простого текста становится очень тяжелой задачей. Если нам пришла в голову какая-то мысль, ее хочется быстро записать и перейти к следующей, а тут приходится прилагать огромные усилия, тратить время, так что мысль может просто уйти. В 60-70-е гг. прошлого века было очень трудно работать с компьютером, нужно было набивать команды на перфокарты, потом расшифровывать то, что он выдает. А Энгельбарт сделал этот процесс гораздо более простым и интуитивным, и сейчас мы почти никаких усилий не прилагаем.
Хотя все-таки приходится прилагать, когда мы работаем с клавиатурой и мышкой. Легко заметить, как это влияет на нашу интеллектуальную деятельность, на примере использования дополнительных клавиш, в частности Shift, чтобы написать что-то в верхнем регистре. Когда у людей происходит неформальное общение, они очень часто не используют эту клавишу, а просто начинают предложение со строчной буквы.
Или не ставят запятые и другие знаки препинания.
Да, они стараются производить еще меньше действий. Тоже самое можно пытаться сделать, продолжая реализацию идеи Энгельбарта о простоте взаимодействия с машиной, используя взгляд. Мы не берем мышку, не подводим курсор к кнопке, а просто смотрим в нужном направлении, и система определяет, что у нас есть желание там кликнуть. Мы называем это «интерфейс "глаз — мозг — компьютер"». Это будет система гораздо более эффективного взаимодействия между человеком и компьютером.
Сергей Львович, понятно, что для инвалидов, людей парализованных, это очень важное новшество. Но не кажется ли вам как биологу, что для людей, не обремененных тяжелым заболеванием, такое "удобство" скорее вредно? Ведь человечество и так лишено двигательной активности, а теперь еще и мышку в руки брать будет не обязательно. Хорошо ли это?
Представьте, что вам вместо того, чтобы написать что-то ручкой или набрать на клавиатуре, нужно взять металлический предмет и, подобно древнему человеку, выбивать эту надпись на камне. Возможно, эта «физкультура» будет полезной, однако мы изобретаем все более удобные в пользовании технологии, и от этого никуда не уйти.
Лень — двигатель прогресса?
В какой-то мере. Хотя, повторюсь, во многих случаях механическое взаимодействие с компьютером все-таки останется и будет полезным, но в некоторых случаях, когда, допустим, человеку нужно сосредоточиться на важной творческой задаче и он не хочет отвлекаться на двигательную деятельность, это допустимо.
Уверяю вас: никто не будет отвлекаться, как только появится такая возможность.
Если это будет быстрее и эффективнее, то да. Но не думаю, что это будет всегда быстрее. По крайней мере, пока мы используем датчики, которые располагаются вне мозга. У нас еще нет безопасных и дешевых технологий, чтобы извлекать информацию из его глубины. Мы можем использовать устройства для безопасного снятия электричества, производимого мозгом, прямо с кожи головы. Такой сигнал не очень качественный и дает не очень высокую точность распознавания намерений человека, поэтому сейчас мы не можем даже надеяться, что в ближайшее время у нас эти устройства будут в любой задаче быстрее тех. которые работают при механическом взаимодействии. Но. по-видимому, мы сможем в ряде случаев сделать взаимодействие между человеком и машиной более легким и естественным.
Каким образом вы этого достигнете?
Существуют способы понять, с какой целью человек смотрит в ту или иную часть экрана. Самый типичный вариант распознавания намерений — запись электроэнцефалограммы. Мы устанавливаем на голове электроды, и то электричество. которое вырабатывает мозг при своей естественной деятельности, мы можем зафиксировать с помощью специального прибора — электроэнцефалографа, чтобы затем обрабатывать с помощью специальных математических алгоритмов. Здесь нам помогают новые подходы в анализе сложных данных— так называемое глубокое обучение сложно устроенных искусственных нейронных сетей, которые в значительной мере строятся на основе знаний о том. как работает мозг. Такую сеть можно научить на предварительно собранных примерах «угадывать», где человек не хочет кликать, а где хочет.
Кроме электроэнцефалограммы, когда мы записываем электрические потенциалы, еще есть метод магнитоэнцефалограммы, ведь мозг вырабатывает и магнитное поле. Мы хотим использовать и электричество, и магнитное поле, чтобы получать максимум информации о том. что происходит в мозге, и в реальном времени классифицировать его состояния. Но пока магнитоэнцефалограф — огромная дорогостоящая установка, и для повсеместного практического применения она не подходит. Наш план таков: с его помощью мы должны исследовать возможности взаимодействия человека и компьютера с применением нашей системы распознавания взгляда, а потом, если мы получим ценное, принципиально новое качество взаимодействия с этой системой, будем развивать эти технологии в более прикладном, компактном варианте.
Наверное, сейчас многие лаборатории занимаются такими исследованиями?
Число лабораторий, исследующих возможности одновременного использования взгляда и сигналов мозгового происхождения в человеко-машинном взаимодействии, растет, но их пока не так много. Так получилось, что нейро- интерфейсными технологиями и управлением с помощью взгляда традиционно занимались совсем разные группы исследователей, и лишь совсем недавно эти направления стали сближаться.
А изучением возможностей не просто усилить человеко-машинное взаимодействие, но именно распознавать намерение, сопряженное со взглядом, насколько я знаю, сейчас занимаемся только мы. Если говорить об этой работе более детально, у нас есть несколько направлений. Одно из них — улучшение работы алгоритмов, которые позволяют распознавать мозговую активность. В этом направлении у нас трудится группа молодых сотрудников, а также студентов Института нано-, био-, информационных, когнитивных и социо- гуманитарных наук и технологий (ИНБИКСТ) МФТИ, адаптирующих методы глубокого обучения для тех данных, с которыми мы имеем дело. Другое направление — это поиск путей модификации сценариев взаимодействия человека и машины, способствующих тому, чтобы мозг генерировал достаточно четко различимый сигнал, который наши алгоритмы смогли бы надежно распознать.
То есть фактически прочитать мысль человека? Мы говорим о телепатии?
Я бы сказал — сделать мысль более заметной, распознаваемой. Важно, чтобы чисто технически все это быстро и эффективно работало.
Скажем, наша магнитноэнцефалографическая установка имеет сотни каналов. Как сделать, чтобы поступающие по ним данные могли немедленно обрабатываться и на их основе наши алгоритмы принимали решения налету? Ведь если человеку придется каждый раз задерживать взгляд на многие секунды, пока компьютеры обсчитают все полученные данные, он быстро устанет, и это будет совсем не то. к чему мы стремимся. Помимо технических задач есть и чисто психологические, и мы пришли к необходимости вести исследования, которые связаны с сознанием. Мы обратили внимание: когда испытуемый «кликает глазами», например, на шарик, который в игре надо выбрать и перенести на другое место, наши классификаторы мозговых сигналов нередко ошибаются, но в этот момент человеку кажется, что он хотел выбрать данный шарик, хотя на самом деле он просто смотрел на него. Во время эксперимента мы просили испытуемых каждый раз, когда выбирался шарик, который они не хотели выбрать, сразу сообщать об этом. Спрашивали: вы именно этот шарик хотели кликнуть? Сначала кажется, что да, именно этот. А потом часто оказывается, что он только собирался принять решение, но еще его не принял. А шарик уже «кликнулся».
До того, как человек это осознал?
Да. И если он близок к принятию решения, но еще не принял его, и наша система его опережает. то он может согласиться с тем, что именно это и есть его решение.
Выходит, она опережает его желания?
Она, если быть точнее, может не совсем точно угадывать его желания, особенно если спешит. И здесь оказывается, что мы должны особенно внимательно отслеживать, как компьютер определил наше желание, намерение, если он мог отреагировать на него еще до того, как оно было сформировано в явном виде. Компьютер может ошибаться. И если, например, мы будем пытаться в этой ситуации чрезмерно ускорить темп взаимодействия. есть риск, что мы перестанем понимать, кто принимает решение — мы или машина. Или вообще какой-нибудь хакер, который пытается нам что-то навязать. Поэтому мы должны понять, как мы определяем, каким был наш собственный выбор. А понять, что выбор действительно был сделан нами, а не машиной, мы можем, видимо, только тогда, когда он фиксируется нашим сознанием.
Какие тут могут быть конкретные применения? Не только же игра в шарики, а что-то более серьезное?
Применение— любая сфера человеко-машинного взаимодействия, если требуется высокая интуитивность взаимодействия. Например, это может коснуться творческих задач, когда человек начинает переключаться от своего замысла на конкретное воплощение.
Скажем, научное творчество. У вас есть какая-то идея или много идей, они витают в воздухе, но вы не можете их сформулировать. Вы подключаетесь к машине и вместе выдаете потрясающий результат. Вам дают Нобелевскую премию. Но кому — машине или человеку?
Конечно, человеку, потому что машина так или иначе создается им. Сейчас, когда компьютер используется для того, чтобы сделать сложный научный расчет, никто не говорит, что это заслуга компьютера. Это делает человек. Наиболее интересное для него из того, что он может делать, — это способность принимать решение. Именно это всегда останется человеческим приоритетом. Допустим, он находит какие-то подозрительные предметы на картинке. Здесь также используется человеко-машинное взаимодействие, чтобы подсмотреть, где его взгляд задержался, на каком объекте на этой картинке. Можно посадить несколько операторов, которые будут одновременно отслеживать такого рода подозрительные предметы. Есть исследования, в которых, анализируя взгляд и активность мозга таких операторов, определяли, где находится террорист или бомба, или еще что-то опасное, требующее нашего контроля. Это было бы очень перспективной технологией, если бы не одно но: очень скоро все это будет гораздо лучше делать искусственный интеллект. Нам же интересны задачи, когда человек делает то, что он никогда не захочет перепоручить машине — например, принимать за него абсолютно все решения.
Какие еще могут быть применения у ваших систем?
Мы когда-то придумали название для их будущей прикладной версии: «Мышь исполнения желаний». Это как бы компьютерная мышь, но ее не нужно двигать, она сама исполняет ваши желания и делает это легко, быстро и точно. Понятно, что до этого пока далеко, нужно еще провести большой объем исследований. Но параллельно на основе нашего опыта работ по созданию системы взаимодействия с помощью взгляда мы начинаем разрабатывать совместно с лабораторией робототехники Курчатовского комплекса НБИКС-природоподобных технологий другие системы взаимодействия с машинами, в особенности с роботами. Эти системы тоже будут интуитивны. Они могут применяться как людьми с ограниченными возможностями, так и другими операторами в сложных ситуациях, когда, например, робот находится в удаленном районе, с ним плохая связь, но нужно организовать взаимодействие. Мы можем, в частности, определять участки, на которые чаще всего смотрит оператор, то есть фокус его внимания, и использовать эту связь как дополнительную модальность.
Или в случае, если человек управляет роботом, на котором находится манипулятор, и ему нужны две руки, чтобы координировать его движение, он мог бы использовать глаз как «третью руку» для работы с манипулятором — указывать объекты, которые нужно захватить. Использовать взгляд как «третью руку» мог бы и хирург, который во время операции не может освободить руки, но. например, должен срочно что-то посмотреть в истории болезни.
И, наконец, еще один проект, который у нас осуществляется совместно с нашей лабораторией робототехники, — управление роботизированной инвалидной коляской с помощью взгляда. Таких попыток делалось много, но здесь есть проблема: это делается чисто инженерным способом, когда не учитывается вся сложность взаимодействия движения по взгляду человека. Казалось бы, это именно то, что нужно парализованным людям, ведь взгляд у них чаще всего работает нормально. Представьте себя на месте такого человека: вы едете на роботе (роботизированное инвалидное кресло — это самый настоящий полуавтономный робот) и управляете его движением с помощью взгляда. Но это значит, что в ответ на ваш взгляд кресло будет менять направление движения. Всегда ли это будет именно то, чего вы хотите? Не получится ли, что автоматические перемещения взгляда (а ведь даже здоровый человек не может постоянно держать взгляд под контролем) будут то и дело приводить к неожиданным изменениям направления движения? При этом ориентация головы будет меняться вместе с поворотом кресла, а это вызовет новые автоматические реакции взгляда и т.д. Так что это может оказаться очень неприятным опытом. Мы хотим разобраться, как сделать естественным и безошибочным управление с помощью взгляда, чтобы человек не пугался, не терялся, чтобы это не вызывало у него излишнего напряжения, а наоборот — это было бы максимально удобно и безопасно.
Остается надеяться, что ваша «Мышь исполнения желаний» будет претворять в жизнь только то, что того стоит. Ведь далеко не всем нашим желаниям стоит исполняться. Помните «Шагреневую кожу», где главный герой боялся чего-либо захотеть: с каждым новым исполненным желанием его дни неуклонно сокращались.
Но мы же неслучайно хотим добиться, чтобы интерфейс откликался на сознательно выработанные намерения, а не просто на желания. В любом случае перед пользователем будет выбор, использовать наш интерфейс или нет, — мы его, разумеется, не собираемся никому навязывать. И мы очень надеемся, что он будет полезен людям.
Мы— это междисциплинарная команда, которая решает такие перспективные задачи в нашей лаборатории в НИЦ «Курчатовский институт». У нас работают очень сильные молодые исследователи. В Курчатовском комплексе НБИКС-природоподобных технологий отличная лаборатория робототехники, с ее сотрудниками мы также взаимодействуем по разным направлениям. Нам интересно работать. Думаю, в ближайшее время можно ждать новых важных результатов.