Главная » Игры » DeepMind научил ИИ проходить игры по видео с YouTube

DeepMind научил ИИ проходить игры по видео с YouTube


Уровни игры Montezuma’s Revenge на Atari

Обучение производилось путем демонстрации системе видео прохождения игр с YouTube. Компания DeepMind продемонстрировала процесс обучения ИИ (слабой его формы) для прохождения игр на Atari. Такой способ используют многие игроки-люди, у которых по той либо иной причине не получалось пройти какую-то игру.

Методика эта достаточно популярна, поскольку позволяет тренировать ботов для выполнения различных специфических задач. Обычно для решения такой задачи необходимо использовать так называемый метод обучения с подкреплением (reinforcement learning). Такие системы изучают игру шаг за шагом, постепенно продвигаясь к финалу. Как только система добивается какого-либо результата, она получает небольшое вознаграждение.
Разработчики создают алгоритмы и модели, которые в состоянии оценить игровое окружение, включая и возможные вознаграждения за прохождение (очки, бонусы и т.п.).

Специалисты компании смогли обучить ИИ проходить такие игры под Atari, как Montezuma’s Revenge, Pitfall и Private Eye. Новый метод, разработанный в DeepMind, отличается от всех прочих. И это позволило добиться необычных для ИИ результатов. При этом акцент на очках и призах не делался — обучение шло по туториалам с YouTube.

Здесь нет четкого задания, не совсем понятно, куда нужно идти, какие предметы собирать и что с ними делать в дальнейшем. Дело в том, что игры вроде того же Montezuma’s Revenge сложны для «понимания» машинами. Машина просто теряется, поскольку в процессе продвижения она не получает наград и обучение с подкреплением здесь становится бесполезным или почти бесполезным.

В итоге он должен добраться до сокровищницы в старом храме. В игре, о которой идет речь, нужно управлять персонажем с именем Panama Joe. Для начала нужно обнаружить первый критически важный для прохождения игры предмет — золотой ключ. По легенде, эти сокровища принадлежат Монтесуме. Но это если знать, что примерно делать. Для его обнаружения нужно пройти около 100 шагов. Это слишком много для любого ИИ, созданного человеком. Если нет — существует огромное количество возможностей 10018 изначальных действий. Ну и награду здесь не получишь, все очень и очень специфично.

Собственно, не только машины, но и люди учатся выполнять разного рода задачи по примерам. Один из способов дать компьютеру понять, что делать — продемонстрировать сценарии прохождения. Танцы, действия художника, пайка — все это лучше всего посмотреть 1 раз, а не 100 раз услышать, как нужно делать.

Технология, созданная специалистами, действительно помогла. В DeepMind пришли к мнению, что это лучший способ показать компьютеру способ выполнения задачи с неявным результатом. Для обучения примером использовались два метода: TDC (temporal distance classification) и CDC (cross-modal temporal distance classification).

ИИ также «понимает», что нужно делать для перехода из одного места в другое. В первом случае ИИ обучают определять расстояние в игровом окружении, замечать разницу между двумя разными фреймами. Для обучения в YouTube видео выделяют пары фреймов в случайном порядке.

Звуки практически во всех играх соответствуют выполнению определенных действий. Во втором случае добавляется еще и «понимание» звукового сопровождения. Таким образом, компьютер обучают воспринимать звуки как важные игровые элементы. Например, прыжки, получение предметов и т.п. Видеоряд + звук позволяют компьютеру весьма неплохо продвигаться в процессе прохождения игры.

Прохождение двух остальных игр, упомянутых в самом начале — здесь. Вот действия обученного ИИ в игре Montezuma’s Revenge.

Правда, полностью от роли вознаграждений отказаться не удалось — до сих пор ИИ зависит от тех же очков. Но обычный метод обучения системы, который использовался ранее, не позволял добраться хотя бы до золотого ключика, за который дается первая сотня очков. Так что ИИ, как слепой котенок, тыкался во все стороны, не понимая, что делать. Правда, система «подкрепления» также модифицирована.

Если сравнение показывает высокую степень схожести, то ИИ получает награду. В процессе прохождения каждый 16-й видеофрейм записи прохождения игры ИИ сравнивается с фреймами видео прохождения игры людьми. С течением времени ИИ начинает выполнять ту же последовательность действий, что и человек, для того, чтобы получить схожий фрейм.

Более того, ИИ во многих случаях показывает лучшие результаты, чем игроки-люди или другие алгоритмы прохождения, включая Rainbow, ApeX, и DQfD.

Можно ли использовать способ обучения ИИ, предложенный компанией, где-либо кроме прохождения старых игр? В принципе, все это впечатляет, но пока что неясна практическая польза достижений DeepMind. Но зная о достижениях DeepMind в сфере ИИ, можно не сомневаться, что так либо иначе все это можно использовать с практической целью — вряд ли специалисты начали бы работу над вопросом ради «фана».


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Микросервисный фронтенд — современный подход к разделению фронта

Она имеет целый ряд преимуществ: это и строгое деление на модули, и слабая связность, и устойчивость к сбоям, и постепенность выхода в продакшн, и независимое версионирование компонентов. Микросервисная архитектура уже давно де-факто стала стандартом при разработке больших и сложных систем. ...

Security Week 31: Пятьдесят оттенков небезопасности в Android

Давно мы что-то не писали про безопасность Android. В целом ситуация там вроде бы неплохая: таких серьезных проблем, как трехлетней давности баг Stagefright, пока не находили. С 2016 года развивается программа Android One, в которой устройства среднего уровня получают единую ...