Главная » Хабрахабр » Граали соревнования Telecom Data Cup. Самое жаркое впереди

Граали соревнования Telecom Data Cup. Самое жаркое впереди

Ru Group и МегаФон. В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.

На ней стараемся проводить большинство своих контестов по анализу данных. Соревнование запущено на уже известной платформе ML Boot Camp. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта.

Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Кофе или что-то свое собственное и бодрящее вам в помощь 🙂 Приветствуем и помогаем всем.

Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.
В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям.

Коротко про задачу

Те, кто уже в курсе того, что происходит на чемпионате, могут переходить к следующему разделу.

Представьте, как вам звонят и спрашивают, смотрите ли вы сейчас телевизор, какой канал, сколько устройств в данный момент включено и какая телепередача по ним идет. Все мы устаем от навязчивых телефонных и интернет-опросов «маркетологов». Пользователи негодуют, совсем неохотно делятся обратной связью, что негативно влияет на качество предоставляемых услуг. Боже, так и хочется бросить трубку (так часто и делаем). Проблема требует решения.

В этом соревновании нужно погрузиться в мир телекоммуникаций, чтобы на основе анонимизированных пользовательских данных, предоставленных телеком-оператором МегаФон и полученных в ходе опросов настоящих живых клиентов, предсказать, удовлетворены ли абоненты качеством связи.

Результатом опроса является индекс удовлетворенности для каждого абонента, равный нулю (0 — доволен) или единице (1 — не доволен). Было опрошено 9443 абонента. Необходимо с максимально возможной точностью выявить недовольных клиентов.

Предсказание нужно сделать для 5221 абонентов в том же порядке, что и в файле subs_csi_test.csv. Метрикой, оценивающей ваши решения, выбран ROC AUC. Предварительные результаты будут формироваться по ответам для 2088 абонентов, а финальные — по ответам для 3133 абонентов (40/60). Данные можно скачать на сайте платформы. Максимальное количество загрузок решений в день — 5, а количество выбираемых решений — 2.

Граали

Участники выбирают разные пути решения. Задача вызвала любопытство у сообщества. Другие генерят фичи, изучают дисциплину «Информационные системы и технологии» по лекциям, выложенным в репозиторий, и вроде тоже всё нормально. Одни генерируют N моделей, просматривают их, стекают и стекают, и… вуаля, — готово. А некоторые надеются на рандом с хорошим сидом.

Для того, чтобы лидерборд в конце конкурса приобрел более красивый вид, хотим поделиться с вами некоторыми Граалями по задаче.

Грааль №0.

Там очень много полезной информации. Обратите внимание на чат и Github-репозиторий с лекциями. Кто ищет, тот всегда найдет! Многие из нас мало представляют, как работает сеть. В репозиторий добавили короткую презентацию с описание работы БС и файл с распределением признаков по услугам.

Пытаемся сдерживаться, но сложно. В чате участники пытают организаторов.

Грааль №1

В предложенных данных поле cell_lac_id обозначает одну соту. Каждая сота принадлежит только одному поколению связи: 2G, 3G, 4G (LTE). Рекомендуем попробовать определить для каждой соты, к какому поколению она принадлежит.

Грааль №2

У каждого телефона есть максимальная технология передачи данных, которую он поддерживает: 2G, 3G, 4G. Информация об этом содержится в поле INTERNET_TYPE_ID таблицы subs_features. Поле закодировано. Подумайте, как можно определить, какое из значений этого поля соответствует какой технологии.

Грааль №3

Обратите внимание: если у какого-то клиента есть телефон с поддержкой 4G, но по истории мы видим, что он часто качает трафик через соты 3G или даже 2G, как этот факт может влиять на его восприятие качества связи?

Грааль №4

У клиентов есть соты, на которых они бывают часто и регулярно (дом, работа, дорога, магазин и т.п.), и соты, на которых они бывают редко и мало. Как вы думаете, качество каких сот может быть важнее для клиента? Как можно определить важные соты?

Грааль №5

В таблице subs_bs_consumption для интернет-трафика есть информация как об объеме переданных данных (SUM_DATA_MB), так и о затраченном на это времени (SUM_DATA_MIN). Какие сведения об опыте клиента на соте можно извлечь из этих данных?

Грааль №6

В таблицах bs_avg_kpi и bs_chnn_kpi есть информация о большом количестве характеристик сот как в среднем за день, так и в час наибольшей нагрузки (ЧНН), причем с историей за несколько месяцев. Попробуйте выделить группы сот, похожих друг на друга по этим характеристикам. Может быть, есть соты, сильно отличающиеся от общей массы? Что происходит с клиентами, которые часто бывают на этих сотах?

Уверены, что они вам помогут в достижении лучшего скора на привате. На этом Граали от организаторов закончились. Всё самое интересное впереди. Не получается — загружайте рандом, мало ли, взлетит на футболку. В конце чемпионата лидерборд будет гореть 🙂 Запомните пятерку!

Расписание

Дата окончания чемпионата — 16 декабря, а 22 декабря награждение в офисе МегаФона.

Подарочки

1-е место: 400 000 рублей;
2-е место: 200 000 рублей;
3-е место: 100 000 рублей.

Традиционно — топ-200 получат футболки с символикой чемпионата.
Кроме того, есть специальные номинации:

  • За самый «вжух» вниз на привате — SSD Kingston 120 Gb.
  • Каждый участник, занявший место, кратное 50, получит футболку со стикером из пака сообщества.

Сообщество

Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

Полезные ссылки

  1. ML Boot Camp I (Machine Learning Boot Camp — как это был...)
  2. ML Boot Camp II (ML Boot Camp 2016. Новичок в Топ-10, «Оценка производительности». Очень прост...)
  3. ML Boot Camp III. Бинарные данные (Как мы делали ML Boot Camp III, Победное решение конкурса ML Boot Camp I..., ML Boot Camp III: предсказание ухода пол...)
  4. ML Boot Camp IV. Задача с секретом (ML Boot Camp IV. Четвертый. Секретный. Т..., ML Boot Camp IV. С 1 в паблике на 35 в п..., Стабилизация и процессы Дирихле в решени...)
  5. ML Boot Camp V. Предсказание ССЗ (AgeHack — первый онлайн-хакатон по продл..., ML Boot Camp V, история решения на 3 мес..., Meetup по итогам чемпионата ML Boot Camp)
  6. ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос (ML Boot Camp VI. Прогноз отклика аудитор..., История первого места на ML Boot Camp VI).

Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Перевезти дата-центр за 14 400 секунд

Всем знакома пословица «Один переезд равен двум пожарам». Смысл этой народной мудрости в том, что процесс переезда сопряжен со стрессами, суетой, переживаниями и, конечно, беготней, которые бывают и при пожаре, а подчас и с утратами ценного имущества. К тому же, ...

Дорожная карта математических дисциплин для машинного обучения, часть 1

Вместо предисловия Допустим, сидя вечерком в теплом кресле вам вдруг пришла в голову шальная мысль: «Хм, а почему бы мне вместо случайного подбора гиперпараметров модели не узнать, а почему оно всё работает?»Это скользкий путь — вы думаете, что достаточно пары ...