Патрисия Китинг (Patricia Keating) и Джоди Крейман (Jody Kreiman) из Калифорнийского университета в Лос-Анджелесе (США) решили выяснить, что делает голос узнаваемым по телефону. Им удалось определить набор характеристик и сформировать профили для распознавания голоса. Авторы доложили о результатах на совместной встрече Акустического общества Америки и Акустического общества Японии, которые прошли на днях в Гонолулу.

Для начала они определились, как измерять человеческие звуки. Голос индивидуума может меняться со временем, зависеть от эмоционального состояния, здоровья, контекста разговора и множества других факторов, которые делают такое измерение сложным. Так что первая их задача была найти инварианты.

Им удалось собрать доказательства того, что слушатели хранят информацию в виде комплекта из своего рода персонального прототипа, усредненного звучания, и индивидуального набора отклонений от этого прототипа. Благодаря этому даже одного слога бывает достаточно, чтобы отличить один голос от другого. Но пока неясно, что именно наиболее важно для определения характеристик внутри такого прототипа или насколько каждая характеристика должна измениться, прежде чем голос станет неузнаваемым. «Качество речи будет меняться. Мы ищем тот момент, когда вы перестанете звучать обычно и начнете звучать как кто-то еще», — сказала Китинг.

Ученые проанализировали записи 50 носителей английского языка женского пола, которые читали пять фраз дважды в день три разных дня. Они искали множественные акустические параметры гласных и согласных, которые связывают прочитанные фразы друг с другом и как они соотносятся с лежащим в основе уровнем шума: базовой частотой и относительной интенсивностью частот гармоник.

Эти фразы придали каждой характеристике количественный объем и диапазон. Их набор сформировал потенциальный базовый голосовой профиль. Сравнивая всех говоривших по этому набору характеристик, используя случайный набор референтных фраз, можно протестировать, насколько точно можно различать собеседников и сравнить, насколько хорошо другие наборы параметров работают для опознавания голоса конкретного человека.