[Из песочницы] AlphaZero снова обыграл Stockfish в матче из 1000 партий

Ксюша Родионова07.12.2018

0 3 Время чтения: 2 мин.

Сегодня они выпустили потрясающие результаты обновленной версии этого движка. Прошлого декабря прошла волна новостей о невероятной силы нового шахматного движка использующего искусственный интеллект AlphaZero компнании DeepMind.

Результаты снова не оставляют никаких сомнений в том, что AlphaZero является одним из сильнейших шахматных движков в мире.

Обновленный AlphaZero разгромил Stockfish 8 в новом матче с 1000 партий с результатом: 155 побед, 6 поражений, 839 ничьих.
AlphaZero также переиграл Stockfish в серии партий с неравным контролем времени, побеждая традиционный движок даже при форе во времени в 10 раз.

По словам DeepMind, в дополнительных матчах новый AlphaZero превзошел «последнюю разрабатываемаю версию» Stockfish от 13 января 2018, показав практически идентичные результаты, как и в матче против Stockfish 8.

Добавление дебютной книги, похоже, помогло Stockfish, который, наконец, выиграл значительное количество игр, когда AlphaZero играл черным, но недостаточно, чтобы выиграть матч. По словам DeepMind, их механизм машинного обучения также выиграл все матчи против «варианта Stockfish, который использует сильную дебютною книгу».

Результаты были опубликованы в статье в журнале Science и предоставлены выбранным шахматным медиа.

В матче AlphaZero и Stockfish были даны три часа каждой игры плюс 15-секундный прирост за ход. Матч в 1000 игр был проведен в начале 2018 года. Этот контроль времени, по-видимому, сделает устаревшим один из самых больших аргументов против резутатов прошлогоднего матча, а именно то, что в 2017 году контроль времени на одну минуту за ход был сильным преимуществом для AlphaZero.

В играх с неравным временем, AlphaZero доминировал даже при соотношении времени 10-к-1. С тремя часами плюс 15-секундный прирост, такой аргумент не имеет смысла, так как это огромное количество игрового времени для любого шахматного движка. Stockfish начал побеждать только при соотношении 30-к-1.

Согласно DeepMind, AlphaZero использует поиск по дереву Монте-Карло и изучает около 60 000 позиций в секунду, по сравнению с 60 миллионами для Stockfish. Результаты AlphaZero в партиях с неравным временем показывают, что он не только намного сильнее, чем любой традиционный шахматный движок, но также использует гораздо более эффективный поиск ходов.

Изображение DeepMind из статьи в Science.
Иллюстрация алгоритма поиска ходов AlphaZero.

Эта версия AlphaZero смогла победить лучших компьютерных движков всех трех игр после нескольких часов самообучения, начиная с простых правил игры. Согласно статье, обновленный алгоритм AlphaZero идентичен в трех сложных играх: шахматах, сёги и го.

DeepMind выпустили 210 игр из матча, которые вы можете скачать здесь.

По данным DeepMind, для генерации первого набора игр для самостоятельной игры использовалось 5000 TPU (тензорный процессор Google, специализированная интегральная схема для ИИ), а затем 16 TPU использовались для обучения нейронных сетей. Новая версия AlphaZero обучила себя играть в шахматы, начиная с правил игры, используя методы машинного обучения, чтобы постоянно обновлять свои нейронные сети.

Согласно DeepMind, новый AlphaZero потребовал всего четыре часа обучения, чтобы превзойти Stockfish; за девять часов он намного опередил чемпиона мира среди шахматных движков. Общее время обучения в шахматах заняло девять часов с нуля.

Для самих игр, Stockfish использовал 44 процессора, а AlphaZero использовал одну машину с четырьмя TPU и 44 ядрами процессора.

Слева AlphaZero играет белыми; справа — черными.
Результаты AlphaZero против Stockfish в самых популярных дебютах.

DeepMind сами отметили уникальный стиль игры своей программы в статье:

«В нескольких играх AlphaZero пожертвовал фиграми для долгосрочного стратегического преимущества, предполагая, что он имеет более зависящую от контекста позиционную оценку, чем оценки, основанные на правилах, используемые в предыдущих шахматных программах», — сказали исследователи DeepMind.

Компания AI также подчеркнула важность использования той же версии AlphaZero в трех разных играх, рекламируя ее как прорыв в общем игровом интеллекте:

«Эти результаты приближают нас к выполнению многолетних амбиций искусственного интеллекта: общей игровой системы, которая может научиться освоить любую игру», — сказали исследователи DeepMind.

Теги
aplhazero deep learning DeepMind Google machine learning Будущее здесь игры ИИ Искусственный интеллект компьютер Логические игры Машинное обучение обновления Обучение поиск правила программы Спорт шахматы

Ксюша Родионова07.12.2018
0 3 Время чтения: 2 мин.

Показать больше

Поделиться
Facebook Twitter WhatsApp Telegram

[Из песочницы] AlphaZero снова обыграл Stockfish в матче из 1000 партий

Добавить комментарий Отменить ответ

Только офлайн: возвращается знакомый многим Microsoft Office, не требующий подключения к интернету

[Перевод] Чему разработчики ПО могут научиться у стоматологов

Импортозамещение, которое мы потеряли: «Сетунь» — судьба первых серийных троичных компьютеров

Космическая MMO-игра EVE Online получила обновлённый клиент для macOS с улучшениями графики и производительности

Ubisoft дарит Assassin’s Creed Syndicate на ПК — раздача доступна даже в России, но с оговорками

ASUS представила ROG Swift PG259QN — самый быстрый в мире монитор для киберспорта с частотой обновления 360 Гц

PhotoDemon 7.0.1 (Windows)

QB64 1.4 (Windows)

MacroDroid 5.11.4 (Android)

Программа создания списка файлов и папок 1.3 (Windows)

Удалить то, что скрыто: оптимизация 3D-сцен в мобильной игре. Советы сотрудников Plarium Krasnodar

Кооперативный боевик Condor будет платной игрой «потенциально» с микротранзакциями — новые подробности мультиплеерного ответвления Control

Американцы завалили Apple исками, поддержав обвинения Минюста США

SK hynix построит в США предприятия по тестированию и упаковке передовой памяти за $4 млрд

Кооперативный боевик Condor будет платной игрой «потенциально» с микротранзакциями — новые подробности мультиплеерного ответвления Control

Американцы завалили Apple исками, поддержав обвинения Минюста США

SK hynix построит в США предприятия по тестированию и упаковке передовой памяти за $4 млрд

Узбекистанский ИТ-холдинг Uzum привлёк инвестиции при оценке свыше $1 млрд

«Юрент» запустил внутренний рейтинг пользователей с данными о их нарушениях

Март 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Похожие публикации

Добавить комментарий Отменить ответ