Ведущая китайская IT-компания Baidu, специализирующаяся на средствах поиска информации в интернете, ведет разработку мощной системы распознавания устной речи. Планируется, что она сможет расшифровывать английскую и китайскую речь в некоторых случаях даже лучше человека. О проекте рассказывает вебсайт MIT (Массачусетского технологического института).

Система под названием Deep Speech-2 полностью основана на искусственном интеллекте. В то время как ее предшественницы включали в себя компоненты, внесенные «от руки», программа от Baidu научилась распознавать слова в речевом потоке с нуля, просто слушая тысячи часов аудиозаписей и сопоставляя их с транскрипциями. В ней была реализована мощная технология, известная как «глубокое обучение». Она предполагает работу разветвленной многоуровневой сети виртуальных «нейронов», обрабатывающих огромное количество данных.

Сегодня голосовой поиск в Китае является весьма востребованным, поскольку письменный текст на этом языке довольно труден для ввода, и не все умеют использовать пиньинь — фонетическую систему для передачи китайских звуков знаками латиницы.

Глубокое обучение машин основывается на идеях, впервые разработанных более 50 лет назад. За последние несколько лет новые математические методы, в сочетании с достаточно мощными компьютерами и огромным количеством обучающих данных, наконец, привели к заметному прогрессу в этой области, особенно в задачах, требующих распознавания зрительных или звуковых данных.

Эта техника уже заметно улучшила производительность систем распознавания голоса и обработки изображений. Его используют крупные IT-компании, включая Google, Facebook, и Baidu.

Например Facebook использует глубокое обучение, чтобы находить лица на фотографиях загружаемых пользователями. А совсем недавно он сделал прорыв в использовании глубокое обучения для разбора написанного текста. Другой интернет-гигант — компания Google теперь использует глубокое обучение в более чем 100 различных проектах, начиная от поиска слов в сети и заканчивая самостоятельным управлением автомобилем.

Компания Baidu начала осваивать технологию глубокого обучения в 2013 г. Тогда она обзавелась исследовательским институтом в штаб-квартире в Пекине. Проект появился в сотрудничестве со специалистами Силиконовой долины. Большая часть работ по разработке Deep Speech-2 была проведена в Калифорнии (США).

При разработке новой системы использовалась новая программная архитектура, которая позволяет ей работать в 7 раз быстрее, чем прежняя версия. По словам одного из разработчиков, программиста Джесса Энгеля (Jesse Engel) из Baidu, инженеры компании экспериментировали с архитектурой нейронных сетей и в результате достигли снижения частоты ошибок в распознавании на 40%. «А для коротких фраз мы, кажется, превысили уровень распознавания [речи] человеком», —сказал он.

Ранее портал Научная Россия писал о приложении компании «Яндекс» для слабослышащих людей, основанном на технологии распознавания речи Yandex SpeechKit.