Сотрудники факультета ВМК МГУ представили новый метод кодирования видеофайлов. Разработанный алгоритм позволяет прогнозировать лучший вариант параметров кодирования из доступных параметров кодека, что поможет значительно ускорить работу с видео в будущем.

Пример видео, на котором одновременно на 25,5% уменьшен размер файла и на 10% скорость работы кодека x264 при незначительном улучшении общего качества

Пример видео, на котором одновременно на 25,5% уменьшен размер файла и на 10% скорость работы кодека x264 при незначительном улучшении общего качества

 

Результаты работы были представлены на симпозиуме по кодированию видео в Бристоле (https://clck.ru/YVSuE (ссылка)  https://clck.ru/YVSwQ (файл)). Работа выполнена в рамках научной школы МГУ «Мозг, когнитивные системы, искусственный интеллект».

Согласно отчету Ericsson Mobility Report 2020 (https://clck.ru/YVREn), видео будет потреблять около 76% глобальной пропускной способности беспроводной сети к 2025 году. В настоящее время доля видео в Интернете составляет 63%. Такая огромная доля обусловлена увеличением продолжительности передаваемого контента и развитием новых форматов высокого разрешения. Огромный объем видеоданных стимулирует создание новых стандартов кодирования видео и новых кодеков, а существующие алгоритмы сжатия становятся все более сложными. Современные видеокодеки имеют в настройках более 50 параметров, что безусловно мешает сделать пользователю оптимальный выбор, при этом полный перебор параметров распространенного кодека x264 на одном видео размером 20 секунд на обычном компьютере займет порядка 1013 веков или более 500 тысяч возрастов Земли. В 99.9% случаев для сжатия видео выбирают стандартные пресеты.

Для работы был создан собственный датасет, в который вошло больше 18 тысяч разнородных видео и при составлении которого была выявлена значительная разница между характеристиками видео наиболее популярного в научной среде датасета для сравнения кодеков и реальных видео сети

Для работы был создан собственный датасет, в который вошло больше 18 тысяч разнородных видео и при составлении которого была выявлена значительная разница между характеристиками видео наиболее популярного в научной среде датасета для сравнения кодеков и реальных видео сети

 

В рамках исследования было проанализировано более 1 миллиона видео, загруженных пользователями на большинство популярных видеонаборов, предназначенных для разработки и тестирования видеокодеков. Для каждого видео была посчитана пространственная и временная сложность, и выяснилось, что большинство видео, предназначенных для тестирования видеокодеков, сильно отличаются от видео, которые передаются в сети Интернет. 

Используя собранный набор видео, учёные МГУ предложили метод, который путем многочисленных запусков создает по кодеку его модель методами машинного обучения. Это позволяет в итоге прогнозировать более эффективные конфигурации кодирования для нового входного видео.

«Наш метод не зависит от архитектуры и реализации кодека и применим к различным кодекам и стандартам сжатия видео. В результате апробации наш метод позволил сэкономить битрейт на дополнительные 17.8% для популярного кодека x264 и 7.9% для x265 при том же времени кодирования по сравнению со стандартными пресетами», — подчеркнул заведующий лабораторией компьютерной графики и мультимедиа факультета ВМК МГУ Дмитрий Ватолин.

Показаны оптимальные для конкретного видео пресеты кодека x264 в сравнении со стандартными пресетами, на которых видно уменьшение размера файла до 30% при том же качестве и скорости сжатия

Показаны оптимальные для конкретного видео пресеты кодека x264 в сравнении со стандартными пресетами, на которых видно уменьшение размера файла до 30% при том же качестве и скорости сжатия

 

Данный результат, продолжение длительной цепочки совместных проектов, направленных на повышение степени сжатия видео, заинтересовал компанию Intel, а позднее и Huawei.

В качестве значимого промежуточного результата стоит отметить «Физтех Лекторий» МФТИ, где благодаря тому, что большая часть видео представлена в формате «говорящей головы», удалось получить двукратное сокращение трафика и затрат на хранение данных при одинаковом качестве и затратах времени на сжатие. Новый результат позволяет получить экономию на более широком спектре входных данных.

 

Информация и иллюстрации предоставлены пресс-службой МГУ