Ученые МГУ при поддержке НОШ «Мозг, когнитивные системы, искусственный интеллект» разработали инновационный подход, который успешно решает две главные задачи: определение спикеров на записи и определение активности конкретного спикера. Новый метод обладает высокой эффективностью даже в условиях потоковой обработки и перекрытия речи. Результаты исследования были представлены в рамках Всероссийской конференции ММРО-2023.
Диаризация спикеров – это задача разделения и идентификации участников на аудиозаписи, то есть процесс определения, кто и когда говорит. Диаризация имеет огромное значение для множества приложений: от транскрибирования речи до автоматического перевода и анализа эмоций. В рамках поставленной задачи состав и даже количество участников не определены заранее, и алгоритм диаризации должен самостоятельно выявить их. Однако можно учесть и специфический случай, когда известно точное количество говорящих на аудиозаписи или имеются образцы речи некоторых из людей. Соответственно, можно сказать, что разработан метод для решения сразу двух фундаментальных задач: диаризации спикеров и определения активности целевого спикера. Диаризация спикеров заключается в идентификации нескольких спикеров на аудиозаписи, а также в различении сегментов речи, в которых каждый спикер активен. Аналогично задача определения активности целевого спикера направлена на определение непрерывных сегментов речи, в которых активен известный целевой спикер.
В научной литературе было предложено множество методов, но они сталкиваются с существенными недостатками. «Одной из основных проблем является необходимость обработки потокового аудио. Алгоритмы часто не имеют доступа к полному контексту аудиозаписи, что делает многие алгоритмы обработки последовательностей непрактичными. Кроме того, перекрытие речи представляет собой значительную проблему, требующую от алгоритмов точной идентификации и различения между несколькими говорящими, произносящими речь одновременно», — отметил доцент кафедры математических методов прогнозирования факультета ВМК МГУ Арчил Майсурадзе.
Решая эти проблемы, исследовательская группа разработала метод, способный эффективно справляться с задачами диаризации спикеров и определения активности целевого спикера в различных условиях, включая различные уровни фонового шума и ситуации перекрытия речи. Используя как традиционные последовательные подходы, так и инновационные техники, новый метод выделяется своей универсальностью и эффективностью.
Основные инновации включают обнаружение перекрытия речи на этапе сегментации, обеспечивая более точную идентификацию речевых сегментов от разных спикеров; оптимизированное извлечение вложений, которые рассчитываются с учетом перекрытия речи, что улучшает точность идентификации спикеров; адаптивную кластеризацию для обработки сегментов с перекрытием речи, обеспечивая более точную кластеризацию спикеров; потоковую обработку, которая позволяет применять метод в реальном времени без потери производительности.
Кроме того, процесс обучения использует синтетические данные для решения проблемы получения точно размеченных обучающих данных.
«В ходе тщательной оценки по сравнению с существующими решениями на известных наборах данных предложенный метод продемонстрировал превосходное качество, особенно в сценариях с перекрытием речи. В режиме потоковой обработки он показал замечательное улучшение на 3.5 процентных пункта в ошибке диаризации по сравнению с текущими передовыми решениями», — добавил Дмитрий Попов, студент магистратуры кафедры математических методов прогнозирования факультета ВМК МГУ.
Этот инновационный метод представляет собой значительный прогресс в области обработки аудио, имеющий далеко идущие последствия для различных приложений, включая распознавание речи, транскрибирование и системы наблюдения.
Информация предоставлена пресс-службой МГУ
Источник фото: ru.123rf.com