Компьютерное зрение. Интервью с доцентом ИТМО Алексеем Кашевником

21.06.2021 10:00

7723

Ни для кого не секрет, что современная жизнь человека напрямую связана с искусственным интеллектом. Использование гаджетов и дополнительных устройств техники сильно облегчает условия жизнеобеспечения. О том, какие новшества внедряют в современные гаджеты «Научной России» рассказал кандидат технических наук, доцент факультета информационных технологий и программирования Санкт-Петербургского государственного национального исследовательского университета информационных технологий, механики и оптики (ИТМО), старший научный сотрудник Санкт-Петербургского федерального исследовательского центра Российской академии наук Алексей Михайлович Кашевник.

Компьютерное зрение. Интервью с доцентом ИТМО Алексеем Кашевником. Фото: Андрей Луфт / Научная Россия

- Какие сейчас существуют программы искусственного интеллекта с практической пользой для людей? В чем их основное преимущество?

- Существует множество программ, которые облегчают жизнь людей и автоматизируют окружающие процессы. Мы также разрабатываем интеллектуальные сервисы. Один из них – система мониторинга водителя транспортного средства. Она позволяет определять такие опасные состояния, как сонливость и невнимательность, а также непристёгнутый ремень безопасности, использование смартфона, прием пищи или питья во время движения. Разработанное мобильное приложение доступно для скачивания.

Другой нашей разработкой является система для оценки прогресса при выполнении практик медитации. Наша система помогает улучшить восприятие, научиться управлять навыками концентрации внимания. Основная задача – научиться оценивать прогресс состояния человека, попытаться уловить корреляции между внутренним и внешним состоянием человека, используя современные технологии компьютерного зрения. Камера фиксирует лицо и тело человека и производит их анализ в динамике. В ситуации с водителем результатом работы системы являются опасные состояния в кабине, а при анализе медитации мы получаем некий прогресс человека в практике за счет анализа таких параметров, как частота и ритмичность дыхания, отклонения движений головы, открытие и закрытие глаз и рта, движение рук и ног. Приложение также доступно для скачивания.

- Какими способами вы проводите мониторинг действий человека?

- Если говорить про мониторинг водителя, то приложение осуществляет анализ углов наклона и поворота головы, степени открытости и закрытости глаз и рта, а также распознавания предметов в кадре (например, мобильного телефона). Есть алгоритмы персонификации для конкретного водителя, с помощью которых система обучается в процессе работы.

Если говорить про оценку медитации, то для анализа видео мы используем три нейронные сети: первая детектирует человека на видео, вторая определяет ключевые точки его тела, а третья оценивает оптический поток. Мы берем два кадра видеозаписи и для каждого пикселя определяем вектор смещения. Таким образом, мы можем построить графики движения для каждой отдельной ключевой точки и тепловую карту в виде картинки, где цвет определяется направлением движения, а его интенсивность — силой смещения.

- Благодаря искусственному интеллекту существуют «умные помощники». Как они выглядят?

- Приложения для смартфонов – сейчас самая актуальная область, так как смартфоны на сегодняшний день есть почти у всех. Если говорить про «железные» устройства, то это роботы-пылесосы, домашние станции, автомобили с умными помощниками, которые имеют информационно-развлекательные системы. Говоря про интеллектуальность в этом плане, нас интересует именно программная часть уже в том же виде, в котором она зашита.

- А как искусственный интеллект может применяться в здравоохранении?

- В начале 2000-х годов были популярны экспертные системы, позволяющие аккумулировать знания от врачей по тем или иным симптомам, болезням. Велись разработки таких систем, которые ставили человеку диагноз в зависимости от тех или иных симптомов и назначали рекомендации по лечению. С одной стороны эти системы популярны, с другой – есть ограничение в плане того, кто возьмет на себя ответственность, если что-то пошло не так. Если ошибся врач, то он несет ответственность. Если ошиблась система, то неизвестно, кто здесь возьмет на себя ответственность за жизнь людей. И это основная проблема.

В здравоохранении активно используются различные сервисы. В современном высокотехнологичном медицинском оборудовании успешно применяется интеллектуальное программное обеспечение, которое должно автоматизировать работу медицинского персонала.

- Известно, что искусственный интеллект может делать прогнозы. Насколько точными и безошибочными они могут быть?

- Это очень большая область. Различные методы искусственного интеллекта могут использоваться для построения прогнозов. Есть некая выборка, которая позволяет спрогнозировать поведение. Здесь все будет основываться на исторических данных. Безусловно, требуется человеческий фактор, который будет отслеживать текущую ситуацию, которая происходит, и уже в зависимости от нее выстраиваются эти модели.

В нашей группе есть наработки по прогнозированию продажи запчастей для горнодобывающего предприятия. Пока это в первоначальной стадии наработок. Достаточно тяжело по историческим данным по продажам, прогнозировать актуальные продажи на будущее. Но все равно нужно ориентироваться на данные о том, какая ситуация и какое потребление будет у предприятий. Необходимо учитывать много факторов, и тогда можно настроить действительно хорошую модель.

- Расскажите о разработке компьютерного зрения.

- Компьютерное зрение достаточно широкая область. Есть различные задачи – распознавание, классификация, выделение объектов на изображении. В последние несколько лет очень популярным методом для этих задач является распознавание изображения: то, что мы делаем – распознаем объект. Обучаем нейронную сеть видеть те или иные объекты. Нейросеть, как черный ящик, со своей математикой внутри определяет заданный объект. Чем лучше ее обучили, тем лучше она понимает изображение заданного объекта.

- Какие действия будет выполнять сам человек во время пользования системой распознавания изображения?

- Никакие. Если мы хотим получить данные объекта, то просто наводим камеру для определения изображения заданного ранее объекта.

В работе могут быть задействованы несколько нейронных сетей в различных условиях освещения. В настоящее время обучили одну, и довольны результатом.

При обучении нескольких нейронных сетей, которые будут выбираться для условий освещенности, результат будет намного лучше. Это требует дополнительных действий по условиям освещенности, что несет за собой повышенную нагрузка для вычислительного ресурса.