Хабрахабр

ИИ научился создавать видео с одного кадра. Старые картины теперь можно сделать живыми

Теперь для создания полноценного видео человека достаточно одной его картинки или фотографии. Технология из Гарри Поттера дошла до наших дней. Исследователи машинного обучения из «Сколково» и центра Samsung AI из Москвы опубликовали свою работу о создании такой системы, вместе с целым рядом видео знаменитостей и предметов искусства, получивших новую жизнь.

Там всё довольно интересно, с массой формул, но смысл прост: их система руководствуется «ориентирами», достопримечательностями лица, вроде носа, двух глаз, двух бровей, линии подбородка. Текст научной работы можно почитать тут. И потом может переносить всё остальное (цвет, текстуру лица, усы, щетину и прочее) на любое другое видео человека. Так она мгновенно улавливает, что человек собой представляет. Адаптируя старое лицо к новым ситуациям.

Модели нужен только один человек, с лицом, повернутым к нам, чтобы у него было хотя бы видно оба глаза. Разумеется, это пока работает только на портретах. Достаточно дать ей подходящее видео (с другим человеком с головой примерно в том же положении). Тогда система может делать с ним что угодно, передавать ему любую мимику.

Но для этого им приходилось тренировать алгоритмы мегабайтами (а лучше – гигабайтами) данных, находить как можно больше изображений и видео с лицами знаменитостей, чтобы выдать более-менее пристойный результат. Ранее ИИ уже научился делать дипфейки, и интернет-пользователи знатно поиздевались над знаменитостями, вставляя их лица в порно и делая мемы с Николасом Кейджем. Новая система генерирует результат моментально, а на входе ей достаточно одной картинки. Сам создатель Deepfakes говорил, что на компиляцию одного короткого ролика у него уходит 8-12 часов.

Теперь, с алгоритмами, работающими по ориентирам, это становится возможным. С предыдущей системой мы никогда бы не смогли посмотреть на живую Мону Лизу, у нас есть только один её ракурс. Идеала не достичь, но уже что-то близко.

image

Две модели алгоритма сражаются друг с другом. В работе московских исследователей также используется генеративно-состязательная сеть. Так достигается определенный уровень реализма: картинка человеческого лица не выпускается «в свет», если модель-критик не уверена в её подлинности более чем на 90%. Каждая пытается обмануть оппонента, и доказать ему, что то видео, которое она создает – настоящее. Как говорят авторы в своей работе, в изображениях регулируются десятки миллионов параметров, но за счет такой системы, работа кипит очень быстро.

Опять же, проще всего получается работать со знаменитостями, которые уже сняты со всех возможных ракурсов. Если картинок несколько, результат улучшается. В этом случае сгенерированные ИИ фото в невысоком разрешении будут неотличимы от настоящих фото человека. Для достижения «идеального реализма» нужны 32 снимка. Нетренированные люди на этом этапе уже не способны выявить фейк – возможно, шансы остаются у экспертов или у близких родственников «подопытного» со всех этих изображений.

Увидеть артефакты на видео, когда голова находится в движении, можно без особых проблем. Если фото или картинка только одна, итог пока не всегда самый лучший. Модель, основанная на ориентирах лица, пока не всегда понимает, как и куда человек должен смотреть. Сами исследователи говорят, что их самое слабое место – взгляд.  

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть