Хабрахабр

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос

Сегодня, 25 июня, стартует ML Boot Camp VI с задачей «Прогноз отклика аудитории на интернет-опрос» (если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер).

Спойлер

ML Boot Camp — чемпионат, посвящённый решению задач по машинному обучению. Схема работы: мы даём задачу, а участники в течение месяца решают её и присылают решения. Авторы лучших решений получают призы. В прошлый раз мы дарили MacBook Pro за первое место, NVIDIA 1080ti — за второе, NVIDIA 1060 — за третье, и WD My Cloud 6 TB за 4-6 места. По традиции, 50-ти лучшим участникам мы отправили майки с символикой чемпионата.

С каждым новым соревнованием аудитория ML Boot Camp значительно возрастает (на данный момент зарегистрировано уже 7000 участников из более 20 стран).

Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. На старте участники получают условия задачи и словесное описание доступных данных — обучающую выборку. Победителем становится тот, кто получит наилучшие результаты на финальных данных. Участники с помощью известных им методов машинного обучения тренируют компьютер и испытывают обученную систему на тестовой выборке, которая поделена на две части: рейтинговую и финальную.

Лучшее из них пойдет в зачет в таблицу лидеров. В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале.

Правила и полезные материалы вы можете найти на сайте чемпионата.

В этот раз мы предлагаем вам погрузиться в темную пучину маркетинга: в рамках очередного соревнования ML Boot Camp вы сможете спрогнозировать поведение пользователей в одном из масштабных маркетинговых исследований.

В этом чемпионате вас ждет настоящая исследовательская работа. Мы предлагаем задачу соответствующего уровня, при этом стараемся, чтобы интересно было и профи, и новичкам.

Подробнее про призы и задачу — ниже. Формат соревнования не изменился: чемпионат будет длиться в течение одного месяца, с 25 июня по 25 июля 2018 года.

Задача «Прогноз отклика аудитории на интернет-опрос»

Есть результаты интернет-опроса. Известно, что часть аудитории прошла анкетирование полностью и корректно. Другая часть завершила опрос частично, с ошибками, или совсем отказалась от участия. Необходимо с максимально возможной точностью предсказать, кто из респондентов относится к первой группе, то есть прошел исследование полностью и без ошибок.

Основной файл с данными содержит 19 528 597 строчек (10Гб) и состоит из 6 столбцов:

cuid — идентификатор. 1. cat_feature — некоторая категориальная переменная. Для одного идентификатора в файле может содержаться несколько записей;
2. счетчики, собранные на основе поведения человека в интернете. Область значений: ;
3-5. dt_diff — количество дней до даты, когда было получено значение целевой переменной. Формат: {w_1: c_1, w_2: c_2, ...}, где w_i — закодированный токен, а c_i — частота этого токена;
6.

Небольшой кусочек данных в качестве примера:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Набор данных для обучения модели содержит таблицу с идентификаторами и значениями целевой переменной (427 995 записей). Предсказания необходимо сделать для 181 тысячи пользователей.

Это значит, что ответом служит оценка принадлежности к классу, лежащая в диапазоне [0; 1] для каждого cuid. Метрикой задачи является ROC AUC. В данном случае нас не интересует конкретная метка класса, которую выдаст алгоритм, или конкретная вероятность для каждого объекта. Данная метрика, по сути, оценивает правильность упорядочения классификатором объектов относительно одного из классов. Нас интересует правильность самого упорядочения.

Конечно, бывает так, что в контексте конкретной прикладной задачи при равных roc_auc одно решение может оказаться лучше другого, но мы решили не усложнять задачу.

Призы

Распределение шести призовых мест в этот раз выглядит так:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Ru Group на позиции Data Scientists. Как и всегда, топ-50 участников получат майки с символикой чемпионата, а участники с наиболее интересными решениями будут приглашены на собеседование в Mail.

Сообщество MLBootCamp

Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Кроме того, сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

Регистрация

Чемпионат стартует сегодня, в 19:00 по московскому времени. Регистрация открыта. Ждем всех и желаем удачи!

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть