Главная » Хабрахабр » Предсказание результатов футбольного ЧМ-2018 алгоритмом random forests

Предсказание результатов футбольного ЧМ-2018 алгоритмом random forests


Образец дерева регрессии для данных чемпионатов мира по футболу 2002−2014 годов. В качестве переменной-отклика используется количество голов

Специалисты по машинному обучению из Германии сравнили три разных модели для предсказания результатов будущего чемпионата мира по футболу 2018 года:

  • модели регрессии Пуассона;
  • методы random forests (случайных лесов);
  • методы ранжирования (по силе команд исходя из спаррингов за 2010-2018 года и по коэффициентам в букмекерских конторах).

Первые два основаны на информации о ковариатах, а последний непосредственно на реальной фактической силе команд. Учёные пришли к выводу, что в рамках этого сравнения наиболее эффективными методами прогнозирования на обучающих данных являются методы ранжирования и случайные леса. Но с помощью комбинированного подхода — сочетая свойства random forests с ранкингом команды — учёным удалось существенно улучшить предсказательную силу системы.
Эту комбинацию методов исследователи выбрали в качестве окончательной модели. На основе её оценок были многократно смоделированы все матчи чемпионата мира по футболу 2018 года. Рассчитаны вероятности для каждого матча, вероятности прохода каждой команды в каждую следующую стадию турнира и наиболее вероятный исход турнира.

Разработчики этих моделей применили систему также для прогнозирования исхода ЧМ-2018. Авторы отмечают, что в научной прессе ранее было опубликовано несколько удачных моделей, предсказывающих результаты чемпионата мира и Европы.

Так, компьютерная модель Zeileis, Leitner и Hornik (2018) выдаёт наибольшие статистические вероятности победы для Бразилии (16,6%), Германии (15,8%) и Испании (12,5%).

Данная статистическая модель в качестве входных данных использовала четыре фактора, после чего вероятности рассчитывались по результатам 10 000 симуляций Монте-Карло. Модель экспертов из швейцарского банка UBS (Audran, Bolliger, Kolb, Mariscal, Pilloud, 2018) рассчитала наиболее вероятным победителем Германию (24,0%), Бразилию (19,8%) и Испанию (16,1%).

Алгоритм случайных деревьев заключается в использовании ансамбля решающих деревьев. Метод random forests — принципиально новый подход. Другими словами, для прогнозирования матчей ЧМ-2018 он подходит очень хорошо. Здесь сочетаются метод бэггинга и метод случайных подпространств для задач классификации, регрессии и кластеризации. Основная идея метода случайных деревьев заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим.

Затем были выделены конкретные предсказательные факторы, которые максимально влияют на предсказательную силу модели. Немецкие специалисты тщательно проанализировали все предложенные модели и их итоговую предсказательную силу. В конце концов, после такой подготовительной работы учёные применили спроектированную модель (случайные леса + ранжирование) на данных ЧМ-2018.

На основании этой информации был рассчитан исход всех 48 матчей на групповой стадии. Для каждого матча модель может выдать ожидаемое количество забитых мячей каждой командой. Затем таким же образом рассчитали результаты матчей в стадии плей-офф. Итоговое положение команд в группах вычислялось в строгом соответствии с регламентом FIFA. Если по результатам дополнительного времени опять фиксировалась ничья, то программа симулировала серию пенальти путём «бросания монетки». Для учёта дополнительного времени выдаваемой программой результат по количеству голов, забитых каждой командой, умножался на 1,33.

На основании этих данных рассчитывалась вероятность выхода из группы и победы в турнире. Данная стратегия использовалась для 100 000 симуляций всех матчей чемпионата.

По итогам групповой стадии программа выдала следующую картину:

В таблице показана самая вероятная сетка плей-офф по итогам 100 000 симуляций. У сборной России довольно высокие шансы пройти в 1/8 финала (50,4%), но там она должна встретиться со сборной Испании, где с вероятностью 87% победит последняя.

Общие шансы России на проход в четвертьфинал — 10,5%, в полуфинал — 2,4%, в финал — 0,4%.

Она отдала максимальную вероятность Испании (17,8%). Для победителя турнира данная модель выдала результат, отличный от результата предыдущих программ моделирования. За ней следуют Германия, Бразилия, Франция и Бельгия.

03208v3). Научная статья опубликована 8 июня 2018 года на сайте препринтов arXiv.org (arXiv:1806.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

[Перевод] UDB. Что же это такое?

Как я уже отметил в статье, про UDB кратко не написать, но можно просто перевести фирменную документацию на него, чтобы познакомить отечественного читателя со столь мощным средством для реализации микропрограммных функций.Но прежде, давайте рассмотрим, что вообще такое PSoC. В комментариях ...

Беспроводные технологии передачи звука на базе Bluetooth: что же лучше?

С развитием технологий так привычные всем «ламповые» аналоговые наушники уходят в историю – их всё больше вытесняют беспроводные собратья на базе Bluetooth. Современные смартфоны лишаются привычного разъёма в угоду влаго- и пылезащищённости. Разработчики выпускают всё новые версии протокола Bluetooth и ...