Главная » Игры » DeepMind научил ИИ проходить игры по видео с YouTube

DeepMind научил ИИ проходить игры по видео с YouTube


Уровни игры Montezuma’s Revenge на Atari

Обучение производилось путем демонстрации системе видео прохождения игр с YouTube. Компания DeepMind продемонстрировала процесс обучения ИИ (слабой его формы) для прохождения игр на Atari. Такой способ используют многие игроки-люди, у которых по той либо иной причине не получалось пройти какую-то игру.

Методика эта достаточно популярна, поскольку позволяет тренировать ботов для выполнения различных специфических задач. Обычно для решения такой задачи необходимо использовать так называемый метод обучения с подкреплением (reinforcement learning). Такие системы изучают игру шаг за шагом, постепенно продвигаясь к финалу. Как только система добивается какого-либо результата, она получает небольшое вознаграждение.
Разработчики создают алгоритмы и модели, которые в состоянии оценить игровое окружение, включая и возможные вознаграждения за прохождение (очки, бонусы и т.п.).

Специалисты компании смогли обучить ИИ проходить такие игры под Atari, как Montezuma’s Revenge, Pitfall и Private Eye. Новый метод, разработанный в DeepMind, отличается от всех прочих. И это позволило добиться необычных для ИИ результатов. При этом акцент на очках и призах не делался — обучение шло по туториалам с YouTube.

Здесь нет четкого задания, не совсем понятно, куда нужно идти, какие предметы собирать и что с ними делать в дальнейшем. Дело в том, что игры вроде того же Montezuma’s Revenge сложны для «понимания» машинами. Машина просто теряется, поскольку в процессе продвижения она не получает наград и обучение с подкреплением здесь становится бесполезным или почти бесполезным.

В итоге он должен добраться до сокровищницы в старом храме. В игре, о которой идет речь, нужно управлять персонажем с именем Panama Joe. Для начала нужно обнаружить первый критически важный для прохождения игры предмет — золотой ключ. По легенде, эти сокровища принадлежат Монтесуме. Но это если знать, что примерно делать. Для его обнаружения нужно пройти около 100 шагов. Это слишком много для любого ИИ, созданного человеком. Если нет — существует огромное количество возможностей 10018 изначальных действий. Ну и награду здесь не получишь, все очень и очень специфично.

Собственно, не только машины, но и люди учатся выполнять разного рода задачи по примерам. Один из способов дать компьютеру понять, что делать — продемонстрировать сценарии прохождения. Танцы, действия художника, пайка — все это лучше всего посмотреть 1 раз, а не 100 раз услышать, как нужно делать.

Технология, созданная специалистами, действительно помогла. В DeepMind пришли к мнению, что это лучший способ показать компьютеру способ выполнения задачи с неявным результатом. Для обучения примером использовались два метода: TDC (temporal distance classification) и CDC (cross-modal temporal distance classification).

ИИ также «понимает», что нужно делать для перехода из одного места в другое. В первом случае ИИ обучают определять расстояние в игровом окружении, замечать разницу между двумя разными фреймами. Для обучения в YouTube видео выделяют пары фреймов в случайном порядке.

Звуки практически во всех играх соответствуют выполнению определенных действий. Во втором случае добавляется еще и «понимание» звукового сопровождения. Таким образом, компьютер обучают воспринимать звуки как важные игровые элементы. Например, прыжки, получение предметов и т.п. Видеоряд + звук позволяют компьютеру весьма неплохо продвигаться в процессе прохождения игры.

Прохождение двух остальных игр, упомянутых в самом начале — здесь. Вот действия обученного ИИ в игре Montezuma’s Revenge.

Правда, полностью от роли вознаграждений отказаться не удалось — до сих пор ИИ зависит от тех же очков. Но обычный метод обучения системы, который использовался ранее, не позволял добраться хотя бы до золотого ключика, за который дается первая сотня очков. Так что ИИ, как слепой котенок, тыкался во все стороны, не понимая, что делать. Правда, система «подкрепления» также модифицирована.

Если сравнение показывает высокую степень схожести, то ИИ получает награду. В процессе прохождения каждый 16-й видеофрейм записи прохождения игры ИИ сравнивается с фреймами видео прохождения игры людьми. С течением времени ИИ начинает выполнять ту же последовательность действий, что и человек, для того, чтобы получить схожий фрейм.

Более того, ИИ во многих случаях показывает лучшие результаты, чем игроки-люди или другие алгоритмы прохождения, включая Rainbow, ApeX, и DQfD.

Можно ли использовать способ обучения ИИ, предложенный компанией, где-либо кроме прохождения старых игр? В принципе, все это впечатляет, но пока что неясна практическая польза достижений DeepMind. Но зная о достижениях DeepMind в сфере ИИ, можно не сомневаться, что так либо иначе все это можно использовать с практической целью — вряд ли специалисты начали бы работу над вопросом ради «фана».


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Иллюзия обмана: визуально-оптическая иллюзия на базе ретропрогнозирования

Ученые со всего мира продолжают изучать этот невероятно загадочный орган, открывая все новые и новые его свойства, функции, возможности и прочее. Мозг человека очень часто называют самым сложным биологическим компьютером в мире. Посему изучение мозга человека позволяет совершенствовать и технологии ...

[Перевод] Chrome 70 поддерживает [список фич] и AV1 – почему поддержка этого кодека так важна?

69-я версия Chrome была большииииим обновлением, т.к. показала новый интерфейс для десктопной и мобильной версий. Chrome 70 не столь радикален, но его новые фичи весьма важны. Мы сделали адаптированный перевод и добавили материал про самое, на наш взгляд, важное в ...