Главная » Софт » Первый видеокодек на машинном обучении кардинально превзошёл все существующие кодеки, в том числе H.265 и VP9

Первый видеокодек на машинном обучении кардинально превзошёл все существующие кодеки, в том числе H.265 и VP9

Примеры реконструкции фрагмента видео, сжатого разными кодеками с примерно одинаковым значением BPP (бит на пиксель). Сравнительные результаты тестирования см. под катом

При обработке видео высокого разрешения 1080p их новый кодек на машинном обучении сжимает видео примерно на 20%лучше, чем самые современные традиционные видеокодеки, такие как H. Исследователи из компании WaveOne утверждают, что близки к революции в области видеокомпрессии. А на видео стандартного размера разница достигает 60%.
Разработчики называют нынешние методы видеокомпрессии, которые реализованы в H. 265 и VP9. — Хотя они очень хорошо спроектированы и тщательно настроены, но остаются жёстко запрограммированными и как таковые не могут адаптироваться к растущему спросу и всё более разностороннему спектру применения видеоматериалов, куда входят обмен в социальные СМИ, обнаружение объектов, потоковое вещание виртуальной реальности и так далее». 265 и VP9, «древними» по стандартам современных технологий: «За последние 20 лет основы существующих алгоритмов сжатия видео существенно не изменились, — пишут авторы научной работы во введении своей статьи.

Новый алгоритм сжатия значительно превосходит существующие видеокодеки. Применение машинного обучения должно наконец перенести технологии видеокомпрессии в 21 век. «Насколько нам известно, это первый метод машинного обучения, который показал такой результат», — говорят они.

Большая часть сжатия видео происходит в два этапа. Основная идея сжатия видео заключается в удалении избыточных данных и замене их более коротким описанием, которое позволяет воспроизводить видео позже.

Затем вместо записи пикселей, связанных с этим движущимся объектом, в каждом кадре алгоритм кодирует только форму объекта вместе с направлением движения. Первый этап — сжатие движения, когда кодек ищет движущиеся объекты и пытается предсказать, где они будут в следующем кадре. Действительно, некоторые алгоритмы смотрят на будущие кадры, чтобы определить движение ещё более точно, хотя это явно не сможет работать для прямых трансляций.

Таким образом, вместо того, чтобы записывать цвет каждого пикселя в голубом небе, алгоритм сжатия может определить область этого цвета и указать, что он не изменяется в течение следующих нескольких кадров. Второй шаг сжатия удаляет другие избыточности между одним кадром и следующим. Это называется остаточным сжатием. Таким образом, эти пиксели остаются того же цвета, пока не сказали, чтобы изменить.

Так, при сжатии движения методы машинного обучения команды нашли новые избыточности на основе движения, которые обычные кодеки никогда не были в состоянии обнаружить, а тем более использовать. Новый подход, который представили учёные, впервые использует машинное обучение для улучшения обоих этих методов сжатия. Напротив, новый кодек изучает эти виды пространственно-временных шаблонов и использует их для прогнозирования будущих кадров. Например, поворот головы человека из фронтального вида в профиль всегда даёт аналогичный результат: «Традиционные кодеки не смогут предсказать профиль лица исходя из фронтального вида», — пишут авторы научной работы.

В некоторых сценах более важно сжатие движения, а в других остаточное сжатие обеспечивает наибольший выигрыш. Другая проблема заключается в распределении доступной полосы пропускания между движением и остаточным сжатием. Оптимальный компромисс между ними отличается от кадра к кадру.

Это означает, что нет простого способа отдать преимущество тому или другому и найти компромисс. Традиционные алгоритмы обрабатывают оба процесса отдельно друг от друга.

Авторы обходят это путём сжатия обоих сигналов одновременно и на основе сложности кадра определяют, как распределить пропускную способность между двумя сигналами наиболее эффективным способом.

бенчмарки ниже). Эти и другие усовершенствования позволили исследователям создать алгоритм сжатия, который значительно превосходит традиционные кодеки (см.


Примеры реконструкции фрагмента, сжатого разными кодеками с примерно одинаковым значением BPP показывает заметное преимущество кодека WaveOne

265 (слева) и кодека WaveOne (справа) на одинаковом битрейте
Карты оптического потока H.

Пожалуй, главным недостатком является низкая вычислительная эффективность, то есть время, необходимое для кодирования и декодирования видео. Однако новый подход не лишен некоторых недостатков, отмечает издание MIT Technology Review. Такие скорости просто невозможно применить в прямых видеотрансляциях, да и при офлайновом кодировании материалов новый кодер будет иметь весьма ограниченную сферу использования. На платформе Nvidia Tesla V100 и на видео VGA-размера новый декодер работает со средней скоростью около 10 кадров в секунду, а кодер и вовсе со скоростью около 2 кадров в секунду.

То есть для просмотра этих видеороликов даже в минимальном качестве SD в данный момент требуется целый вычислительный кластер с несколькими графическими ускорителями. Более того, скорости декодера недостаточно даже для просмотра видеоролика, сжатого этим кодеком, на обычном персональном компьютере. А для просмотра видео в качестве HD (1080p) понадобится целая компьютерная ферма.

Остаётся надеяться только на увеличение мощности графических процессоров в будущем и на совершенствование технологии: «Текущая скорость не достаточна для развёртывания в реальном времени, но должна быть существенно улучшена в будущей работе», — пишут они.

Бенчмарки

В тестировании принимали участие все ведущие коммерческие кодеки HEVC/H.265, AVC/H.264, VP9 и HEVC HM 16.0 в эталонной реализации. Для первых трёх использовался Ffmpeg, а для последнего — официальная реализация. Все кодеки были максимально настроены, насколько позволили знания исследователей. Например, для удаления B-фреймов использовался H.264/5 с опцией bframes=0, в кодеке аналогичная процедура осуществлялась настройкой -auto-alt-ref 0 -lag-in-frames 0 и так далее. Для максимизации производительности на соответствие метрике MS-SSIM, естественно, кодеки запускались с флагом -ssim.

Для SD-качества использовалась библиотека видео в разрешении VGA от e Consumer Digital Video Library (CDVL). Все кодеки проверяли на стандартной базе видеороликов в форматах SD и HD, которые часто используются для оценки алгоритмов сжатия видео. Для HD использовался набор данных Xiph 1080p: 22 видеоролика общей длиной 11 680 кадров. Она содержит 34 видеоролика с общей длиной 15 650 кадров. Все видеоролики 1080p были обрезаны по центру до высоты 1024 (в данный подход нейросеть исследователей способна обрабатывать только измерения с размерностями, кратными 32 по каждой стороне).

Различные результаты тестирования показаны на диаграммах ниже:

  • средние значения MS-SSIM для всех видеороликов в наборе для каждого кодека;
  • сравнение размеров файла при усреднении значения MS-SSIM для всех кодеков;
  • влияние различных компонентов кодека WaveOne на качество сжатия (нижняя диаграмма).


Результаты тестирования на наборе видеороликов низкого разрешения (SD)


Результаты тестирования на наборе видеороликов высокого разрешения (HD)


Влияние различных компонентов кодека WaveOne на качество сжатия

Данная работа во многом основана на предыдущих научных статьях, где описываются различные методы сжатия статичных изображений на базе машинного зрения. Не стоит удивляться такому высокому уровню сжатия и кардинальному превосходству над традиционными видеокодеками. Например, см. Все они намного превосходят по уровню и качеству сжатия традиционные алгоритмы. Toderici, S. работы G. O’Malley, S. M. Hwang, D. J. Minnen, S. Vincent, D. Covell, R. Baluja, M. Variable rate image compression with recurrent neural networks, 2015; G. Sukthankar. Vincent, N. Toderici, D. J. Johnston, S. Minnen, J. Hwang, D. Covell. Shor, M. Balle, V. Full resolution image compression with recurrent neural networks, 2016; J. P. Laparra, E. End-to-end optimized image compression, 2016; N. Simoncelli. Vincent, D. Johnston, D. Covell, S. Minnen, M. Chinen, S. Singh, T. Hwang, J. J. Toderici. Shor, G. Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks, 2017 и другие.

С увеличением производительности графических ускорителей реализация видеокодеков стала первым кандидатом. Прогресс в области ML-сжатия статических изображений неизбежно привёл к появлению первых видеокодеков, основанных на машинном обучении.

06981). Статья «Выученное сжатие видео» опубликована 16 ноября 2018 года на сайте препринтов arXiv.org (arXiv:1811. Anderson), Любомир Бурдев (Lubomir Bourdev). Авторы научной работы — Орен Риппель (Oren Rippel), Санджей Наир (Sanjay Nair), Карисса Лью (Carissa Lew), Стив Брэнсон (Steve Branson), Александер Андерсон (Alexander G.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Иди-ка ты сам на… или правила общения в команде

Пост-ответ на статью "Иди-ка ты на !@# со своей "токсичностью"". Если бы я последовал советам из этой статьи, мне достаточно было бы проявить эмоцию и сказать автору "Иди-ка ты сам на на ..., ты ничего не понимаешь!". Поэтому давайте разберем ...

[Перевод] Сделал редизайн — потерял миллиард

Исследуем эпичные провалы редизайна и мотаем на ус. Менеджер по продукту заходит в отдел дизайна и заказывает редизайн сайта. «Наш сайт выглядит таким старым! У всех наших конкурентов есть более яркие сайты. Давайте перепроектируем его. Кнопки с разноцветными тенями — ...