MIT (Massachusets Institute of Technology), Microsoft и Adobe разработали алгоритм анализа вибраций объектов, окружающих источник звука. Новая технология предлагает немало применений — от «распознавания» речи и анализа материала и структуры объекта до удаленного отслеживания пульса больного. О технологии рассказывает веб-сайт MIT.
Разработчики в ходе экспериментов добились впечатляющих результатов — восстановили разборчивую речь по видеосъемке вибрации пакета хрустящего картофеля, снятого через звуконепроницаемое стекло с расстояния около 4,5 м. В ходе других экспериментов они получили аудиосигналы из съемок вибрации алюминиевой фольги, поверхности воды в стакане и листьев растения в горшке. «Объект вибрирует, когда до него доходит звук, — объясняет Эйб Дэвис (Abe Davis), ведущий автор и аспирант MIT. — Эта вибрация, в свою очередь, создает визуальный сигнал, обычно неразличимый невооруженным глазом».
Для восстановления звука по видеозаписи необходимо, чтобы частота видеокадров была выше частоты дискретизации аудиосигнала. Некоторые смартфоны способны фиксировать до 60 кадров в секунду, обычные цифровые видеокамеры — от 2 до 6 тысяч, лучшие коммерческие видеокамеры — более 100 000 кадров в секунду. Благодаря специфике конструкции сенсоров бытовых видеокамер даже частота 60 кадров/сек позволяет кое-что узнать — определить пол говорящего, число участников разговора и даже личности говорящих, если известны акустические особенности их голосов.
Кстати, в СССР использовалась подслушивающая система «Буран», созданная, как считается, Львом Терменом, изобретателем терменвокса, основанная на сходном эффекте — с помощью отраженного инфракрасного луча снимались вибрации с оконного стекла.
Но хотя первыми кандидатами на использование новой технологии будут, очевидно, правоохранительные органы и судебные эксперты, разработчиков больше интересуют иные ее применения. «Мы восстанавливаем звук по движению объектов, — говорит Дэвис. — Это дает нам немало информации о самом объекте, потому что разные объекты по-разному реагируют на звук». В ходе экспериментов ученые установили, что амплитуда вибраций находится в диапазоне десятых долей микрометра.
Это соответствует примерно 1/5000 пикселя, но изменения цвета отдельно взятого пикселя позволяют определить движения меньшего размера, чем он сам. Предположим, для примера, что на изображении наблюдаются две четко разделенных области — голубая и красная. На границе между ними камера получает и голубой, и красный сигналы, поэтому усредняет их до фиолетового. Если с течением времени голубая область «вторгается» на территорию красной — даже менее чем на пиксель — в фиолетовом, соответственно, становится больше голубого, и смещение цвета дает информацию о степени этого вторжения.
Но некоторые изменения оказываются еще более мелкими. Для этих случаев разработчики использовали алгоритмы, усиливающие вариации на видеоизображении: последовательность кадров пропускается через ряд фильтров изображений для измерения мельчайших флуктуаций по различным направлениям, скажем, по горизонтали, вертикали и диагоналям под различными углами и в различных масштабах. Это дает возможность зафиксировать движения, до того незаметные, например, дыхание новорожденного или биение пульса на кисти пациента.
Алгоритм, созданный группой исследователей, комбинирует выходные данные этих фильтров с вибрацией объекта как целого. Поскольку различные поверхности могут двигаться в различных направлениях, алгоритм сначала нормализует все измерения, чтобы они не «заглушили» друг друга, что, в свою очередь, подчеркивает измерения, сделанные на четко различимых границах.
Кроме того, разработчики предлагают вариант алгоритма для анализа бытовых видеозаписей. Сенсоры бытовой видеотехники представляют собой массив из миллионов фотодетекторов. Хорошо известен феномен размытого изображения быстро движущихся объектов — он возникает из-за того, что камеры считывают измерения от одного ряда фотодетекторов, прежде чем перейти к следующему, и объект может успеть изменить положение за это время. Но для разработчиков это оказалось полезной функцией: искажения краев объекта содержит информацию о высокочастотной вибрации, и этого достаточно, чтобы получить пусть нечеткий, но потенциально полезный аудиосигнал.
Дополнительно на сайте MIT желающие могут посмотреть два видеоролика: об усилении вибраций на видео и о визуальном наблюдении пульса.
Фото превью: ru.123rf.com