Главная » Хабрахабр » Анализ результатов 2018 Kaggle ML & DS Survey

Анализ результатов 2018 Kaggle ML & DS Survey

5 миллиона. Kaggle — известная платформа для проведения соревнований по машинному обучению на которой количество зарегистрированных пользователей перевалило за 2. В октябре 2018 года был организован уже второй опрос и на него ответило 23859 людей из 147 стран. В соревнованиях участвуют тысячи data scientist из разных стран, и Kaggle стал интересоваться тем, что из себя представляет аудитория.

В опросе было несколько десятков вопросов на самые разные темы: пол и возраст, образование и сфера работы, опыт и навыки, используемые языки программирования и софт и многое другое.

Я тоже принимал участие и пусть денежный приз не получил, но мой кернел занял шестое место по количеству голосов. Но Kaggle — не просто площадка для соревнований, там также можно публиковать исследования данных или решения соревнований (они называются кернелы и похожи на Jupyter Notebook), поэтому датасет с результатами опроса был выложен в открытый доступ, и было организовано соревнование на лучшее исследование этих данных. Я хотел бы поделиться результатами моего анализа.

Меня заинтересовали различия между людьми из разных стран, поэтому большая часть исследования будет сравнивать людей из России (поскольку мы тут живём), Америки (как самая продвинутая страна в плане DS), Индии (как бедная страна с большим количеством DS) и других стран. Данных довольно много и их можно рассматривать с разных сторон.

Большая часть графиков и анализа взята из моего кернела (желающие могут там увидеть код на Python) но есть и новые идеи.

Общий обзор

Не всем интересно тратить время на соревнования, кто-то просто не слышал об этой платформе, наконец, ~24 тысячи ответивших — лишь небольшая часть всех участников Kaggle. Сразу отмечу, что ответившие на вопросы — не совсем репрезентативная выборка data scientists. Тем не менее у нас есть только эти данные, поэтому в дальнейшем я буду считать, что имеющейся информации достаточно для того, чтобы делать выводы по странам и в целом.

Основная масса — Америка и Индия. На этой карте можно увидеть количество прошедших опрос в разных странах. Индия — это страна с огромным населением, которая ещё давно стала уделять внимание IT. В настоящее время Америку, пожалуй, можно назвать лидером в DS, плюс эта сфера стала там популярной раньше, что и объясняет такое количество людей. Китай сильно отстаёт, но предполагаю, что это объясняется закрытостью их Интернета. Благодаря курсам от Siraj Raval DS приобретает популярность и привлекает большое количество индусов.

В России, Канаде, Бразилии и Европе также довольно много DS, но в этих странах население значительно меньше, поэтому конкурировать по количеству участников Kaggle пока не могут.

Как видно многие люди потратили на опрос 10-20 минут, что вполне достаточно для вдумчивого ответа на вопросы. Посмотрим, сколько времени люди тратили на опрос. Кому-то мог не понравиться опрос, кому-то могло быть лень отвечать, кто-то не захотел отвечать на вопрос о своём поле (об этом ниже). Отвечавшие на вопросы меньше пары минут, видимо, просто сразу или почти сразу закрыли опрос. Наверное, они просто забыли об открытой вкладке 🙂 Вообще говоря, ещё были люди, которые потратили на опрос десятки часов.

Половозрастная структура

Больше всего в Kaggle участвуют молодые люди 22-29 лет или даже 18-34. В целом картина не вызывает удивления. Скорее всего все они либо стремятся приобрести знания, либо добиться впечатляющих результатов, чтобы получить преимущество при поиске работы. Это школьники, студенты и недавние выпускники. В целом это неудивительно, учитывая, что наша сфера объединяет IT, математику и другие направления, в которых издавна наблюдается гендерный дисбаланс. Мужчин значительно больше, чем женщин. Предпочитаю не обсуждать в данной статье. Нужно ли что-то активно делать для исправления этого дисбаланса?

Давайте посмотрим на самые популярные варианты: Стоит заметить, что можно было также не указывать возраст или указать возраст самостоятельно.

Среди ответов в свободной форме:

  • non-binary (адекватно)
  • Attack helicopter (клёво! правда хотелось бы посмотреть на родителей)
  • Male (почему бы просто не выбрать этот вариант?)
  • Who are you to insinuate I have a gender? (ну, потому что ты человек?)
  • Kaggle (ну хоть не кагглосексуал)
  • Your Highness (вы точно не спутали этот вопрос с другими?)
  • A little sunshine. 🙂 (это так мило!)
  • Double male (прям мачо!)
  • Male and female are sexes not gender. Gender is a regressive set of stereotypes associated with our sex. Ask what sex we are for demographic purposes, if that is what is important. (SWJ detected!)

Это объясняется тем, что в последние несколько лет там происходит активная борьба с "гендерным неравенством". Довольно интересно посмотреть на различия в половозрастной структуре разных стран.
В Америке доля женщин выше, чем в остальных странах. Нужна она или нет это вопрос, но результаты видны.

Похоже, что ребята заранее думают о будущем и прокачивают навыки ещё с детства. Индия выделяется большим количеством молодых DS. Позже мы увидим, что система образования в Индии оставляет желать лучшего.

Россия в целом похожа на другие страны.

Образование

Россия выделяется тем, что у многих DS нет формального образования (или они не захотели ответить).


Как уже было отмечено раньше, в Индии высока доля студентов или бакалавров, а вот обладателей докторской степени практически нет. В целом это впечатляет — видимо они смогли своим трудом и упорством войти в сферу DS.

CS, IT и математика/статистика превалируют во всех странах, но в Индии виден уклон в техническое направление, в Америке важнее бизнес-дисциплины (в том числе экономика), а в России ещё и физика. Интересно посмотреть на то, как в разных странах DS появляются из разных направлений.

И здесь видна разница между странами. В этом вопросе людей спрашивали их мнение о том лучше или хуже качество курсов на онлайн-платформах по сравнению с традиционным образованием. Может быть просто не хватает учителей, может быть качество образования довольно низкое, в любом случае большинство индусов отдают предпочтение онлайн курсам. Образование в Индии оставляет желать лучшего. В России и остальном мире качество традиционного образования является неплохим и почти не уступает конкурентам. Америка же имеет развитую систему образования, в итоге почти треть людей считают, что образование в университетах имеет более высокое качество.

Должность

После некоторых размышлений я сформировал 7 групп и получилась такая картина: В рамках одного из вопросов просили указать должность, мне кажется, что для задач этого отчёта столько вариантов просто не нужно.

Америка выделяется упором на аналитику, а Россия — прикладными направлениями. Здесь мы видим очередное подтверждение тому, что многие индусы на каггле — студенты и/или представители более технических направлений.

Но давайте посмотрим на более подробную картину:

Здесь мы видим как долго человек проработал на текущей должности.

Я вижу 2 объяснения этому факту: либо выпускники вузов, либо сменившие сферу работы. Первое, что бросается в глаза — подавляющее количество людей на всех должностях — новички. Хайп по DS/ML начался недавно и, как мне кажется, только усиливается, в результате всё больше и больше людей хотят приобщиться к новому направлению и создать свой Искусственный Интеллект (ибо люди вне DS редко осознают, что никакого ИИ нет и не будет в ближайшие годы).

Предполагаю, что немало опытных программистов решили перекатиться в DS, но DE было им ближе — для вывода ML решений в продакшн подходит большинство имеющихся навыков. Другой интересный феномен — довольно большая доля опытных data engineer. Лично меня отдельно удивляет высокая доля опытных исследователей в России, пока не понял причин этого. Интересно, что в России доля DE с 5-10 и 10-15 лет опыта довольно высока, видимо это senior-ы разработки на Java и других языках, которые весьма востребованы для high-load систем.

Можно найти много причин этому: и то, что в Америке DS часто берут на аналитические позиции, и то, что в ряде крупных компаний data analyst по факту выполняет DS работу, и то, что это могут быть переквалифицировавшиеся статистики. Америка выделяется среди других стран высокой долей аналитиков.

Раз уж мы говорим о работе, но нельзя не затронуть вопрос зарплаты.

Тут всё довольно ожидаемо: зарплаты в Индии ниже всего, в России немного повыше, а Американские зарплаты самые высокие.

Уверенность в себе

Первый вопрос — опыт работы в ML, второй — считаете ли вы себя DS.

Комбинация ответов на 2 вопроса показалась мне очень интересной. Здесь можно наблюдать либо разницу в мировоззрении и самовосприятии, либо разное понимание вопросов.

С ростом опыта уверенность в себе растёт. В большинстве стран новички с опытом работы меньше двух лет имеют смешанное мнение — кто-то уже уверен в себе, кто-то сильно сомневается. В России же подавляющее большинство начинающих считает себя DS, но с по мере получения опыта уверенность в этом падает.

Дальше пойдут вопросы, где можно было указать несколько ответов, так что суммирование долей вполне может дать больше 100%

Посещаемые ресурсы

В России любят читать статьи на ArXiV, в Америке предпочитают https://fivethirtyeight.com (причём в других странах его практически не посещают), а в Индии фанатеют от Siraj. Kaggle и Medium уважают все.

Кто ещё не состоит в нашем сообществе, присоединяйтесь 🙂 Отдельно хочется отметить ods.ai, который оказался самым популярным ресурсов, среди тех которые люди указали вручную.

IDE и языки программирования




В плане использования IDE людей можно разделить на 2 основные группы: использующие IDE с встроенной визуализацией (Jupyter Notebook, RStudio, Spyder) и использующие классические IDE (VS Code, Vim).

Впрочем, такие ide как Vim или Atom тоже пользуются известностью. Америка выделяется высокой долей аналитиков, использующих R и, как следствие, RStudio. В России Pycharm популярен не только среди DS, но и в целом среди программистов, так что количество использующих его не вызывает удивления.

SQl, Java, Bash, C/C++ также являются важными языками для сферы DS.

Фреймворки

Возможно многих привлекают нейронные сети, и они хотят изучать их с самого начала; может быть бизнес начинает применять нейронки в своих задачах; а может быть дело просто в том, что многие участники Kaggle с интересом пробуют соревнования по картинкам и текстам. Для меня несколько удивительно то, что доля использующих DL фреймворки ненамного меньше доли использующих sklearn.

LGB/XGB/catboost — самые известные имплементации градиентного бустинга, и они показывают высокое качество на табличных данных. Отдельно хотелось бы отметить высокую долю использующих Pytorch и библиотеки градиентного бустинга в России. Pytorch появился довольно давно, но стал приобретать высокую популярность в последние 1-2 года.

Визуализация


В целом картина неудивительна. Какой же анализ данных без визуализаций! Python — это matplotlib + seaborn, plotly/bokeh. R — это ggplot2 и shiny.

D3 позволяет создавать крутые визуализации, но с ним довольно сложно работать.
Altair — библиотека на Vega-Lite, у меня есть надежды, что в будущем она приобретет популярность благодаря интересным интерактивным визуализациям доступным в ней.
Tableau и другой BI софт продолжают сохранять популярность, что неудивительно — это качественные решения, которые поддерживаются и могут интегрироваться много с чем.

Платформы для онлайн образования


Там можно найти курсы практически на любые темы и уровни. Coursera является лидером на рынке курсов для онлайн образования. Udacity, Udemy и edX менее популярны, но тем не менее на них тоже можно найти большое количество интересных курсов. Немаловажным фактором является также то, что можно подать заявку на финансовую помощь и пройти курсы совсем бесплатно. Приятно то, что курсы сделаны в виде кернелов, что даёт практику в использовании возможностей Kaggle. Kaggle некоторое время назад запустил свою собственную образовательную инициативу. Курсы от DataCamp имеют уникальный формат, который позволяет дать точечную практику по определенным темам, но вряд ли эта платформа может дать глубокие знания.

Недавно закончилась четвёртая сессия курса в которой было зарегистрировано более 7,5 тысяч человек. Отдельно стоит отметить, что mlcourse.ai от ods.ai является самым популярным из вариантов, указанных пользователями. Этот курс даёт не только теоретические знания и сложные домашние задания, но также практику участия в соревнованиях на Kaggle. Благодаря тому, что основное общение происходит в слаке, курс заканчивает впечатляющая доля людей — значительно выше, чем у других бесплатных курсов по ML.

Инструменты для интерпретации

Изучение коэффициентов линейных моделей или важности признаков у деревянных моделей позволяет найти признаки, которые больше всего влияют на предсказания. Наконец посмотрим, какими способами разные люди анализируют результаты работы моделей.
Анализ самих предсказаний и сравнение их распределения с распределением целевой переменной является базовым, но качественным способом анализа.

Они позволяют дать объяснение не только простым моделям, но даже некоторым из тех, которые считаются черными ящиками. Кроме того, в последнее время становятся популярны специальные фреймворки для анализа моделей: SHAP, LIME и ELI5.

Итоги

Этот анализ не покрывает все доступные данные, но показывает те из них, которые показались мне наиболее интересными. Мы посмотрели, чем отличаются друг от друга DS в разных странах мира, а также узнали, что их сближает. Желающие могут провести своё исследование на этих данных 🙂

Спасибо за внимание!


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

[Перевод] Учебный курс по React, часть 24: второе занятие по работе с формами

Сегодня мы продолжим разговор об использовании форм в React. В прошлый раз мы рассматривали особенности взаимодействия компонентов и текстовых полей. Здесь же мы обсудим работу с другими элементами форм. → Часть 1: обзор курса, причины популярности React, ReactDOM и JSX→ ...

Квантовая механика: конец войны интерпретаций

Квантовая механика окружена ореолом таинственности. Зачастую, этот ореол возникает из-за того, что популярные источники излагают материал, не придерживаясь какой либо определенной интерпретации, а иногда пытаются втиснуть современные факты в прокрустово ложе старой Копенгагенской интерпретации. Со списком из более чем 17 ...