Наушники с шумоподавлением очень хорошо справляются с задачей создания слуховой пустоты. Но допуск определенных звуков из окружающей среды через них все еще остается проблемой для ученых. Команда Университета Вашингтона разработала систему искусственного интеллекта, которая позволяет пользователю наушников смотреть на говорящего человека в течение трех-пяти секунд, чтобы начать слышать только его.

Система, названная Target Speech Hearing, отменяет все другие звуки в окружающей среде и воспроизводит только голос увиденного говорящего в режиме реального времени, даже когда слушатель перемещается в шумном месте и больше не сталкивается с говорящим. Команда представила свои результаты в Гонолулу на конференции ACM CHI по человеческим факторам в вычислительных системах. Работа опубликована в журнале Digital Library.

«Мы склонны думать об искусственном интеллекте как о веб-чатботах, которые отвечают на вопросы. Но в этом проекте мы разрабатываем ИИ для изменения слухового восприятия человека в наушниках с учетом его предпочтений. С нашими устройствами вы сможете четко слышать одного собеседника, даже если вы находитесь в шумной обстановке, где разговаривает множество других людей», – пояснил старший автор Шьям Голлакота, профессор UW в Школе компьютерных наук и инженерии имени Пола Г. Аллена.

Чтобы воспользоваться системой, человек в наушниках с микрофоном нажимает кнопку, направляя голову на собеседника. Звуковые волны от голоса собеседника должны попасть на микрофоны с обеих сторон гарнитуры одновременно; погрешность составляет 16 градусов. Наушники передают сигнал на встроенный компьютер, где программа машинного обучения изучает голосовые паттерны нужного диктора. Система фиксирует голос и продолжает воспроизводить его слушателю, даже когда пара перемещается. Способность системы фокусироваться на выбранном голосе улучшается по мере того, как собеседник продолжает говорить, предоставляя ИИ больше данных для обучения.

Команда протестировала свою систему на 21 испытуемом, которые оценили четкость голоса диктора, включенного в систему, в среднем почти в 2 раза выше, чем у нефильтрованного аудио. Эта работа опирается на предыдущие исследования в области слуха, которые позволяли пользователям выбирать конкретные классы звуков, например, птиц или голоса, которые они хотели бы услышать, и отменять другие звуки в окружающей среде.

В настоящее время система может одновременно регистрировать только один динамик тогда, когда нет другого громкого голоса, исходящего из того же направления, что и от собеседника. Если пользователя не устраивает качество звука, он может провести еще одну регистрацию динамика, чтобы улучшить чистоту.

Команда работает над тем, чтобы в будущем расширить систему на наушники и слуховые аппараты.

[Фото: Kiyomi Taguchi/University of Washington]