Искусственный интеллект может понять нас, читая по губам

01.08.2018 15:36

3218

Искусственный интеллект может понять нас, читая по губам

С помощью машинного обучения искусственный интеллект научился читать по губам, изучив тысячи видеороликов, в которых люди говорили на разные темы. Препринт научной статьи о новой разработке опубликован на сайте arxiv.org.

Программный код, который помог бы компьютеру читать по губам, написать очень сложно. Поэтому разработчики из DeepMind решили обратиться к искусственному интеллекту. Они «накормили» свою систему тысячами часов видеороликов вместе с расшифровкой текста, который произносили люди в кадре, и компьютер решил эту задачу сам по себе. Длительность всех видеороликов составила 140 000 часов. После этого ученые разработали программу, которая создавала клипы на несколько секунд, в которых было показано, как двигается рот человека для каждой фонемы. Всего материала было отснято на 4000 часов и на более 127 000 английских слов.

Процесс обучения частично зависит от нейронных сетей, алгоритмов ИИ, содержащих множество простых вычислительных элементов, связанных друг с другом, которые изучают и обрабатывают информацию почти так же, как и человеческий мозг. Когда команда «кормила» программу необработанными видео, эти сети делали из видео небольшие клипы, в которых было показано, какое движение совершают губы, когда мы произносим тот или иной звук. На следующей стадии система также использовала нейронные сети, изучала эти клипы и представляла список возможных фонем и их вероятности для каждого видеокадра. На последней стадии ИИ составлял все возможные английские слова из последовательности фонем. При этом машина понимала, что, например, звук «т» в английском языке может произноситься по-разному: «t» в слове «boot» (ботинок) и «beet» (свёкла).

После обучения исследователи протестировали свою систему на 37-минутном видео. ИИ ошибочно определил только 41% слов, сообщается в статье. Может показаться, что его положительный результат не так уж велик, однако новая разработка работает намного лучше, чем прежний компьютерный метод. Предшественник нового метода фокусировался на отдельных буквах, а не на звуках и ошибался на 77%. К тому же, в последнем исследовании ошибались и люди, которые бегло читают по губам. Погрешность их «перевода» составила около 7%.

В будущем разработчики планируют разработать мобильную версию программы. Такой карманный «переводчик» сможет помочь немым людям.

Ранее «Научная Россия» писала о другой разработке компании DeepMind – искусственном интеллекте, который способен понимать намерения других машин.

[Изображение: Science]