Хабрахабр

Ли Седоль уходит из большого го из-за AlphaGo. Как это понимать?

В качестве главной причины для завершения своей спортивной карьеры Седоль называет появление систем компьютерного го, которые играют лучше любого из людей. В понедельник 25 ноября южнокорейский мастер игры го 9 дана Ли Седоль рассказал в интервью, что он больше не будет участвовать в профессиональных соревнованиях. Даже если стать лучшим, всё равно будет нечто, что никогда не превзойти, говорит Седоль.

Го из-за своих особенностей долгое время не удавалось оптимизировать так, чтобы компьютеры могли обыгрывать людей. За пределами кругов поклонников го Ли Седоль получил известность благодаря играм против системы AlphaGo, разработанной компанией Google DeepMind. В 2016 году британская DeepMind провела матч из пяти партий, в котором один из лучших из людей — Седоль — проиграл до этого малоизвестной программе.

За это время улучшенная версия AlphaGo обыграла другого человека-чемпиона, DeepMind выпустила несколько научных работ по нейросети и рассказала о системе AlphaZero, а потом, кажется, потеряла любой интерес к проекту. С той игры прошли три года. Есть ли для его решения другие причины? Лишь сейчас Седоль решил оставить го.

О развитии систем компьютерного го и причинах поступка Ли Седоля мы поговорили с 7-кратным чемпионом Европы по го, действующим чемпионом России и членом президиума Российской федерации го Александром Динерштейном.

В январе 2016 года обычно немногословная DeepMind разразилась научной работой, пресс-релизом и видеороликом. Впервые в мире был создан искусственный интеллект, который способен обыграть человека-чемпиона в азиатскую игру го.

Как и шахматы, го — игра с совершенной информацией, то есть игроки знают обо всех ходах, которые ранее совершили другие игроки. На тот момент го считалась одной из последних настольных логических игр, в которую люди могли играть лучше любого компьютерного алгоритма. Но если ни один гроссмейстер уже с 2005 года не может обыграть лучшие из шахматных программ, то компьютерные алгоритмы в го на тот момент играли на уровне любителей.

Цель игры — отгородить на доске камнями своего цвета территорию большего, чем оппонент, размера. Два игрока расставляют на доске определённого размера камни чёрного или белого цвета. Многие из ходов го основаны на интуиции, которую сложно описать алгоритмом.

Задача поиска исхода игры связана с вычислениями функции оптимального значения в дереве поиска, в котором находятся bd ходов. Вычислительная сложность го связана с большим числом возможных позиций и корректных ходов из них. На стандартной доске 19×19 линий возможных позиций в гугол (10100) раз больше, чем атомов во Вселенной. В го количество корректных ходов b ≈ 250, длина игры d ≈ 150.

При создании AlphaGo к этому алгоритму добавили глубинные свёрточные нейросети. Программы до AlphaGo полагались на поиск по дереву Монте-Карло для оценки ценности каждого состояния в дереве поиска. Дополнительно AlphaGo играла пять тысяч партий против самой себя. Нейросети обучили с помощью 160 тысяч матчей с сервера игры го через Интернет KGS с 29,4 млн позиций.

AlphaGo выиграла 499 матчей из 500 против игроков-программ. Полученная программа в лабораторных условиях превзошла любые коммерчески доступные продукты и открытые проекты компьютерного го. В октябре 2015 года в лондонском офисе Google Хуэй проиграл алгоритму пять из пяти игр. Алгоритм нужно было опробовать на человеке, поэтому против программы пригласили играть трёхкратного чемпиона Европы Фань Хуэя.

Конечно, Хуэй — хороший игрок, но для чемпионатов Европы. На тот момент это не было окончательным поражением. Поэтому для закрепления результата Google объявила о намерении провести в марте 2016 года в Сеуле матч AlphaGo против Ли Седоля, который на тот момент считался лучшим игроком десятилетия. Наивысшим уровнем обладают мастера го из основного очага распространения игры — Азии.

Лишь в четвёртой игре — когда три победы AlphaGo уже определили исход матча — ИИ признал поражение. Из пяти партий серии Седоль выиграл одну.


Программисты DeepMind почему-то не предусмотрели драматичного сообщения на случай поражения программы.

Но внутри компании продолжали работать. DeepMind могла бы удовлетвориться счётом 4:1. Матч назначили на май 2017. К июню 2016 года сформировались планы дать AlphaGo поиграть против другого чемпиона го — китайца Кэ Цзе.

Игрок выиграл 60 партий у профессионалов высокого уровня. С 29 декабря 2016 года на корейском сервере Tygem и китайском Fox начал регулярно играть необычно сильный игрок под именем Magister или Master. 4 января глава DeepMind Демис Хассабис признался, что этот игрок — новая версия AlphaGo. За победу против незнакомца даже назначали награду.

Каждая из версий требовала для запуска всё меньше и меньше оборудования, но играла сильнее предшественника. AlphaGo Fan играл против Фань Хуэя, игравший против Седоля вариант назвали AlphaGo Lee, в Интернете и против Кэ Цзе играл AlphaGo Master. Неудивительно, что на Future of Go Summit весной 2017 года Кэ Цзе проиграл новой версии AlphaGo все три игры. В DeepMind оценили, что для игры Fan c Lee на равных первому пришлось бы дать три камня форы, Master оказался сильнее Lee ещё на три камня.

Вероятно, эти игры — лишь демонстрация технологического могущества компании. Google не выпустила исходные коды AlphaGo и не продаёт программу. По уменьшению количества необходимых модулей легко отследить увеличение эффективности. AlphaGo обязана своим успехом аппаратному вычислительному ускорителю TPU собственной разработки Google. Партии игры Фань Хуэя обсчитывали 176 видеоускорителей, против Седоля играли 50 плат TPU, против Цзэ выставили всего одну.


Вычислительный кластер, который обыграл Ли Седоля.

Для обучения трёх первых версий AlphaGo правилам игры требовались сотни тысяч партий людей, в алгоритм заложены некоторые вручную заданные функции. DeepMind демонстрировала успехи программной разработки. За 3 дня самообучения Zero превзошла Lee, за 40 дней — Master. Версия AlphaGo Zero училась играть полностью самостоятельно, а нейросети политики и ценности в ней объединены в одну. Менее чем за полтора месяца алгоритм с нуля научился играть лучше людей в игру, история которой насчитывает тысячелетия человеческого опыта.

Программу невозможно нигде приобрести или сыграть против неё, с весны 2017 она не играет против людей. DeepMind так никогда и не выпустила исходные коды AlphaGo. Возможно, Google не хочет ассоциировать свою деятельность с системами компьютерного го. Для желающих перенять мудрость AlphaGo есть лишь обнародованные партии продукта.

Похожая масштабом и охватом деятельности на Google китайская Tencent начала создавать собственный алгоритм почти сразу после самой первой публикации научной работы по матчу Фань Хуэя. Зато другие быстро переняли знания из опубликованных данных. Уже в 2017 году на сервере FGS алгоритм впервые набрал 10 дан. За год продукт под названием Fine Art сильно прокачали. За схожесть с программой DeepMind алгоритм Fine Art прозвали «китайский AlphaGo». На чемпионате компьютерного го Computer Go UEC Cup в марте 2017 года программа Fine Art превзошла 29 алгоритмов и получила право сыграть против чемпиона-человека и одержала победу.

Сторонние разработчики пытались повторить и эти программы. AlphaGo Zero и AlphaZero учатся не на основе партий игроков-людей, а в играх против самих себя. Проект с открытым исходным кодом Leela Zero откровенно говорит, что пытается воссоздать описанное в научной работе DeepMind.

В мае 2018 компания открыла исходные коды проекта ELF OpenGo. Собственную реализацию компьютерного го создал и Facebook. Он играет сильнее четырёх из тридцати лучших игроков го в мире. Натренированный на 2000 видеоускорителях алгоритм запускается на одной видеокарте.

Об этом говорит не только текст, но и даже названия научных работ: «ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero». Facebook также не скрывала, что работает на основе исследований DeepMind. На сегодняшний день эта программа остаётся одной из сильнейших среди общедоступных, её анализируют собственные партии многие профессиональные игроки. На основании ELF OpenGo Facebook создала инструмент для анализа партий игроков-людей.

Разработка программы HanDol начались в 2016 году в период общей заинтересованности в AlphaGo. Южнокорейская компания NHN Entertainment также переняла опыт DeepMind. 0 вышла в декабре 2017 года, её уровень игры был сравним с уровнем игрока 9 дана. Версия 1. 0 требовала обучения на записях игр людей, HanDol 2. HanDol 1. NHN Entertainment утверждает, что HanDol Lee играет не хуже AlphaGo Lee, игроки говорят, что алгоритм чуть хуже AlphaGo Master. 0 переняла идею тренировок только на играх против самой себя.

К концу января 2019 года программа одержала победу над пятью лучшими в Южной Корее мастерами 9 дана. HanDol также зарекомендовала себя как система компьютерного го сильнее людей. NHN Entertainment предлагает HanDol как услугу тренировок игроков и анализа партий.

Через три года после публикации первой научной работы DeepMind об AlphaGo от превосходства людей в го не осталось и следа. Сила компьютерных систем в го не вызывает вопросов, к ним уже обращаются за советами, у них учатся. Несколько научных работ и десятки партий без какого-либо доступа к программе — но по ней снят даже документальный фильм AlphaGo (доступен в пиратском переводе на русский язык).

Почему Седоль решил уйти из го только сейчас? Тем не менее с матча Ли Седоль — AlphaGo прошло уже больше трёх лет.

На наши вопросы ответил 7-кратный чемпион Европы и действующий чемпион России по го Александр Динерштейн.

Случается ли в го такое, что многие профессионалы уходят из игры на рубеже 35—40 лет? В 36 лет Ли Седоль прерывает свою легендарную 24-летнюю карьеру. Каков типичный путь в жизни мастера го 9 дана?

В Японии профессионалы частенько играют в турнирах до последнего дня своей жизни. Этот путь во многом зависит от страны, в которой живёт мастер. В Китае профессионалы частенько завершают карьеру и переходят на тренерскую работу в 35—40 лет. К примеру, один из лидеров японского го середины прошлого века Сугиути Масао (9 дан, 1920—2017) играл турнирные партии даже в возрасте 97 лет, правда, уже без особого успеха. В Корее регулярно проводятся турниры для ветеранов с хорошими призовыми, поэтому здесь не принято выходить в отставку раньше времени.

Но полагаю, что для Ли Седоля, который за свою карьеру заработал десятки миллионов долларов, призовые не играют существенной роли.

Чем в дальнейшем будет жить Седоль? Вероятно, финансовый вопрос он решил себе до конца своих дней, но чем обычно занимаются бывшие чемпионы после ухода из игры?

Но Ли Седоль за этим замечен не был. Открывают свои школы, тренируют детей. Сам Ли Седоль никого не обучает. Да, его школа го уже давно существует в Корее и в Китае, но здесь просто используется его раскрученное имя.

Ведь это тот мастер, который может многое передать будущим поколениям. Я слышал, что он поступил в университет и решил получить высшее образование, но я надеюсь, что он не выберет для себя путь, который совсем не связан с Го.

Чтобы отметить уход из го Ли Седоль в следующем месяце сыграет против системы компьютерного го HanDol. Но чемпион говорит, что проиграет первую игру даже с планируемыми двумя камнями форы. Каковы шансы Седоля в игре против HanDol? В какой форме человек-игрок находится сейчас?

Если Ли Седоль проиграет на двух камнях, то придется играть на трёх, а потом, возможно, и на четырёх камнях. Матч из 3 партий будет проходить на плавающей форе. Ли Седоль сейчас занимает 14 строчку в корейском рейтинге го и 54 место в неофициальном мировом рейтинге, но многие по-прежнему считают его одним из сильнейших мастеров в мире. Но я уверен, что до четырёх камней дело не дойдет.

Победа Ли Седоля над AlphaGo в четвёртой партии матча во многом была случайной — Ли Седоль сильно отставал по очкам, но смог обмануть программу, применив некорректный (но с очень непростым опровержением) ход.

Если посмотреть на современное положение дел, то на равных никто сильнейшие программы обыграть уже не может. Но я напомню, что все партии того матча игрались на равных. Профессионалы берут 2 камня форы у китайской программы FineArt (а она после ухода с арены AlphaGo считается сильнейшей в мире), но на двух камнях программа выигрывает около 95% всех партий.

А 4 камня — это уже фора из разряда ладьи в шахматах. Думаю, что и Ли Седолю на двух камнях будет непросто, но на трёх он должен справиться. Насколько мне известно, шахматисты пока успешно обыгрывают программу с форой в коня, думаю, что и у нас 3 камня — это потолок. Мастера на такой форе проигрывать не должны. И как бы сильно программы не прогрессировали, на 4 камнях обыграть человека они не смогут никогда.

Южнокорейская система компьютерного го HanDol к концу января 2019 года одержала победу над пятью мастерами 9 дана. Где находится HanDol: на уровне AlphaGo Lee (версии для игры с Седолем) или AlphaGo Master (версии для игры против Кэ Цзе)? Есть ли у HanDol потенциал против более поздних и более сильных AlphaGo Zero или AlphaZero?

Я их смотрел, помню, что шансов у профессионалов не было. Те пять партий игрались на равных. Этот вывод можно сделать по анализу партий AlphaGo современными программами. Думаю, что сейчас в мире существует несколько программ, которые вполне могли бы составить конкуренцию сильнейшим версиям AlphaGo. Они находят до 95% ходов, которые играла AlphaGo, и предлагают сыграть именно в эти точки.

Но у Ли Седоля есть важное преимущество. Думаю, что Ли Седоль не в состоянии почувствовать разницу между AlphaGo, с которой он сражался в 2016 году, и современными программами. Заранее протестировать AlphaGo ему не дали. Тогда он не знал, с кем предстоит иметь дело, и был уверен, что выиграет матч с сухим счётом.

Помню, как показывал Ли Сангхуну (старшему брату Ли Седоля, у которого тоже 9 профессиональный дан) украинскую разработку начала 2000-х годов — базу партий профессионалов с возможностью поиска по позициям. Корейские профессионалы вообще не использовали раньше компьютер для изучения го. Он смотрел на неё с большим удивлением, отмечая, что корейцы таким не пользуются и держат знания в голове.

Ли Седоль сможет потренироваться, поиграть с ними на разной форе. А сейчас программы есть в открытом доступе. Теперь, когда ты смотришь современные партии, не сразу становится понятно, кто их играл — человек или программа — настолько всё стало похоже по дебютам. Да и стратегия го с тех пор сильно продвинулась вперед — люди изучили компьютерные идеи, стараются подражать машинам.

Поражение 2016 года не заставило Седоля немедленно отказаться от го. Заметные победы HanDol против корейских чемпионов относятся к началу этого года. В конце 2019 без какого-либо заметного повода он объявил об уходе.

Седоль мог бы играть в составе профессиональной лиги в Китае или Японии, но вопросы национальности от этого заставили отказаться. Кроме возросшей силы слабой формы ИИ от DeepMind для ухода Ли Седоля из спорта есть причины в виде судебного конфликта с Корейской ассоциацией падук по поводу финансового вопроса членских взносов.

Кривит ли душой Седоль? Возможно ли, что называть причиной ухода систему компьютерного го — это в большей степени комплимент её разработчикам, а реальная причина более приземлённа?

Его недовольство политикой Корейской федерации падук (го), которая забирала себе 10% призовых, в том числе в турнирах, сыгранных в других странах, известно давно. Ли Седоль всегда был резок в высказываниях и поступках. Но это не те деньги, ради которых стоит бросать го.

Человека, который считался сильнейшим в мире до появления на арене Ли Седоля в середине 2000-х годов. Думаю, что у Ли Седоля перед глазами стоит картина другого легендарного корейского мастера — Ли Чангхо. Он активно играет в турнирах, но откатился аж на 40-е место в корейском рейтинге. Ли Чангхо го не бросил.

Он играет так, как играл всю свою жизнь. Что любопытно — 44-летний Ли Чангхо не признаёт компьютерные схемы. Похоже, что и Ли Седоль с компьютерами не особо дружит. Утверждает, что не пользуется компьютером и даже телефон имеет с кнопками. А современное профессиональное го (как и современные шахматы) — это теперь многочасовые тренировки с машиной, шлифовка вариантов, поиск новинок.

Хотя можно было не бросать Го, а собрать себе штаб, пригласить профессионалов, которые любят эту кропотливую работу. Ли Седоль, видимо, решил, что здесь ему за молодежью не угнаться. С таких подходом Ли Седоль ещё мог бы держаться на плаву.

У игрока в шахматы поступок Седоля может вызвать улыбку: в шахматах компьютер уже два десятилетия обыгрывает лучших из людей. Шахматисты с этим свыклись.

Она может обыграть почти любого человека, поэтому у неё есть чему поучиться. Систему HanDol предоставляют в качестве сервиса для тренировок.

Мы теперь будем учиться у программ, а не мудрых мастеров-людей? Бессмысленно ходить в тени гигантов-машин или достаточно отбирать смартфоны на чемпионатах? Как вы оцениваете будущее профессионального го в эпоху, когда коммерчески доступны компьютерные системы сильнее человека?

А мы использовали этот лозунг, даже на буклектах для начинающих радостно о нём сообщали. Главный минус — го потеряла статус единственной в мире игры, с которой не может справиться машина. Профессионалы потеряли статус богов, превратившись в простых смертных. Таинственность пропала. Минусов, конечно, много. Книги по го потеряли свой смысл — если верить программам, они учат нас неправильным вещам.

Для того, чтобы обыгрывать азиатских профессионалов, теперь достаточно установить себе программу и пытаться играть так, как она это делает. Но главный плюс в том, что теперь необязательно учиться в Китае, Корее, или Японии.

Турниры с призами в сотни тысяч долларов по-прежнему выигрывают азиаты. Но пока, правда, у нас не особо это получается. Но, надеюсь, ситуация изменится в будущем, и мы им ещё покажем! А европейцы и американцы, даже те, которые «спят в обнимку с компьютером», по-прежнему им проигрывают.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть