Главная » Хабрахабр » «Потомок» AlphaGo самостоятельно научился играть в шахматы, сеги и го

«Потомок» AlphaGo самостоятельно научился играть в шахматы, сеги и го

image

В частности, нейросеть AlphaGo смогла обыграть в го лучших игроков мира. DeepMind создает поистине удивительные алгоритмы, которые способны на то, чего не могли достичь машинные системы ранее. По мнению специалистов, сейчас возможности системы возросли настолько, что нет даже смысла пытаться ее победить — результат предопределен.

Благодаря исследованиям ее сотрудников на свет появилась улучшенная версия AlphaGo, которая получила название AlphaZero. Тем не менее, компания не останавливается на достигнутом, а продолжает работу. Она начала с нуля и быстро научилась отлично играть во все три игры. Как и указано в заголовке, система сама смогла научиться играть сразу в три логических игры — шахматы, сеги и го.
Отличием новой версии от всех предыдущих стало то, что система практически всему научилась сама. Никто AlphaZero не помогал — система до всего «дошла сама».

Впервые компьютерную систему привлекли к игре в 1950-х годах. Шахматы были включены в комплект, скорее, по традиции — ничего сложно в том, чтобы научить компьютер играть в шахматы, нет. С течением времени шахматные программы постепенно совершенствовались, а в 1997 году корпорация IBM разработала «шахматный компьютер» Deep Blue, который сумел обыграть гроссмейстера и чемпиона мира Гарри Каспарова. Затем, уже в 60-х, была создана программа Mac Hack IV, которая стала обыгрывать соперников-людей.

Достигнув совершенства в создании систем, которые умеют играть в шахматы, разработчики стали создавать новые варианты компьютерных соперников человека — в частности, удалось научить компьютер играть в го. Как сам он указывает, в настоящее время многие приложения на смартфоне играют в шахматы лучше, чем Deep Blue. Но времена изменились. Ранее эта игра с тысячелетней историей считалась одной из самых недоступных для «понимания» компьютера. Как уже говорилось выше, AlphaGo достигла настолько высокого уровня мастерства по игре в го, что человек и рядом не стоял.

Играя с собой снова и снова, AlphaGo совершенствуется. Кстати, в этом году AlphaGo получила обновление, благодаря которому теперь нейросеть может обучаться различным стратегиям игры в го без участия человека. Всего за три дня она достигла в го такого уровня мастерства, что обыгрывает оригинальную версию AlphaGо с результатом 100 к 0. Именно такую систему обучения использует «потомок» AlphaGo — нейросеть AlphaZero. Единственное, что получает система изначально — правила игры.

Компьютер стремится выиграть, поскольку за каждую победу получает награду (очки). Никакой фантастики здесь нет, DeepMind использует широко известную систему машинного обучения с подкреплением. На просчет следующего хода и оценку вероятности победы AlphaZero тратит всего 0,4 секунды. Причем AlphaZero проигрывает миллионы комбинаций в процессе обучения. Что касается AlphaGo оригинальной версии, то нейросеть состояла из двух элементов, двух нейросетей — одна определяла следующий возможный ход, а вторая просчитывала вероятности.

А вот AlphaGo на это требовалось 30 млн игр. Для достижения уровня мастера в Go AlphaZero нужно «прокрутить» около 4,5 млн игр при игре с собой.

Компания не забыла об этом. Стоит отметить, что AlphaZero создали специально для игры в го. Система используется та же — машинное обучение с подкреплением. Но кроме го, система способна обучаться и двум другим играм, о которых упоминалось выше. Также системе нужна модель окружающей среды (виртуальной). Стоит отметить, что AlphaZero работает лишь с задачами, у которых есть определенное количество вариантов решения.

Интересно, что тот же Каспаров считает, что человек может многое получить от систем вроде AlphaGo — научиться у них можно многому.

В любом случае понятно, что нейросети и AI способны на многое. В настоящее время перед разработчиками стоит задача обучить компьютер играть в покер лучше, чем кто-либо из людей, а также создать систему, способную побить в честном бою любого киберспортсмена.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Перевезти дата-центр за 14 400 секунд

Всем знакома пословица «Один переезд равен двум пожарам». Смысл этой народной мудрости в том, что процесс переезда сопряжен со стрессами, суетой, переживаниями и, конечно, беготней, которые бывают и при пожаре, а подчас и с утратами ценного имущества. К тому же, ...

Дорожная карта математических дисциплин для машинного обучения, часть 1

Вместо предисловия Допустим, сидя вечерком в теплом кресле вам вдруг пришла в голову шальная мысль: «Хм, а почему бы мне вместо случайного подбора гиперпараметров модели не узнать, а почему оно всё работает?»Это скользкий путь — вы думаете, что достаточно пары ...