Хабрахабр

Пять мифов о Data Science

Меня зовут Иван Серов, я работаю в департаменте Data Science финтех-компании ID Finance. Data scientist –довольно молодая, но очень востребованная профессия, которая обросла множеством мифов. В этом посте я расскажу о нескольких заблуждениях, с которыми сталкиваются начинающие дата-саентисты (DS).

DS не обязаны знать про бизнес

Хороший DS должен не только уметь построить хорошую модель, но и понять, почему именно такую модель он должен построить, и даже сказать, что эта модель не нужна, если это так. Например, для одного из наших проектов мы делали модель, которая бы предсказывала наличие на счету клиента денег и списывала с помощью специального алгоритма. Но в процессе создания модели поняли, что она не нужна: проще слегка улучшить работающий алгоритм. Иногда затраты на работу DS сильно превышают доходы от новой модели, которую они разрабатывают. В таком случае он должен обсудить необходимость такой модели с руководителем проекта и заняться чем-то более полезным.

Сложные алгоритмы всегда лучше

XGBoost, LightGBM, Random Forest… Все эти алгоритмы называют как первоочередные для любой задачи. Многие начинающие DS даже не пробуют начинать с чего-то полегче. Однако, когда вдруг встает задача с разреженными данными, где 10000 переменных и 20000 строк, а XGBoost показывает AUROC 0,2 начинаются проблемы. Например, в этом случае лучше подойдет простой SVM с нелинейным ядром, который дал AUROC 0,8. Простые модели иногда работают лучше сложных.

Если хочешь стать крутым DS — иди в большую компанию

Каждый день мы слышим от больших компаний про их новые проекты. Как искусственный интеллект улучшает один процесс на 10%, другой на 20% и прочее. После такого у многих может сложиться впечатление, что только в больших компаниях что-то происходит, а в компаниях поменьше нет ни интересных проектов, ни хороших DS. К счастью, это не так – поработав в одном из крупнейших банков, который позиционирует себя как digital, могу сказать, что интересных проектов в стартапах больше. Cкорость внедрения проектов в больших компаниях уже стала притчей во языцех и поводом для мемов. К примеру, в банке проект может внедряться и 3 месяца и полгода, за это время в стартапе вы успеете сделать несколько проектов. Вывод: пиар крупных компаний часто всего лишь пиар.

Руководителям проектов платят больше, чем хорошим спецам

У тех, кто перерастает средний уровень часто встает вопрос — куда двигаться дальше. Варианта собственно два — Lead Data Scientist (тим лид) и Senior DS. Про саму разницу между уровнями написано уже много (например, вот хороший пост от Виктора Кантора), я лишь скажу, что зарплата хороших специалистов может быть гораздо выше, чем у любого тим лида, и надо отталкиваться только от своих желаний. Обычно после нескольких лет работы начинается выгорание, все задачи кажутся одинаковыми и надоедают. Тут нужно либо искать что-то новое (благо, у лидеров рынка вроде Nvidia, Amazon или Яндекс всегда что-то найдется), либо идти в управление (Lead DS -> Chief DS -> CDO), что многие и выбирают.

DS не должны внедрять модель или тестировать её результаты

Многие не согласятся, мол, сейчас есть дата инженеры, которые и должны внедрять эти модели. Но DS всё же должен позаботиться о том, чтобы облегчить работу дата инженера, а как минимум:

  • Писать грамотный код, в котором легко разобраться
  • Думать над кодированием переменных. Например, LabelEncoder можно легко выгрузить в виде .pkl файла, а вот частотное кодирование на новых данных может стать проблемой
  • Продумать, как в будущем будут проводиться АБ-тесты (кстати, оценка модели после введения в продакшн в большинстве случаев всё же лежит на том, кто её разрабатывал)

Во многих компаниях вообще нет дата инженеров, и всё делают сами DS. Еще возможна ситуация, когда модель взаимодействует с вашим сервисом через API, который создаёт кто-то из айтишников, и не факт, что они знают что-то про data science. В таком случае DS может сделать модуль для обработки данных, выгрузить алгоритм в виде pkl и создать готовый исполнительный файл, который на вход получает json запрос, а на выходе выдает ответ в этом же json. Отдельно про тестирование: уже при создании модели важно продумать будущие АБ-тесты, правильно выбрать целевую метрику и понимать экономический эффект от модели.

Надеюсь, этим постом я раскрыл некоторые моменты, с которыми сталкиваются начинающие дата-саентисты и она кому-то поможет. В следующих постах я остановлюсь на некоторых мифах и домыслах подробнее.

А с какими мифами чаще всего встречались вы?


Немного о нас:

Финтех- холдинг ID Finance специализируется на data science, кредитном скоринге и небанковском кредитовании. Компания развивает бренды MoneyMan, AmmoPay, Solva и Plazo в России, Испании, Казахстане, Грузии, Польше Бразилии и Мексике. R&D центр ID Finance находится в Минске. Основателями компании являются экс-топ-менеджеры Deutsche bank и Royal Bank of Scotland Александр Дунаев и Борис Батин. Среди инвесторов ID Finance венчурный фонд Emery Capital. Компания заняла 36 место в рейтинге Financial Times самых быстрорастущих компаний Европы в 2018 г. Компании-активы ID Finance с 2012 года профинансировали кредитов на общую сумму свыше 275 млн EUR. На начало 2018 года совокупный кредитный портфель компании составлял 77 млн USD. О нас пишут Forbes, Business Insider, Finextra, Venture Beat, Crowdfund Insider, The Banker и BBC. Мы также публикуемся в русскоязычных медиа: Forbes, VC, Roem, RusBase и др.

Показать больше

Похожие публикации

Кнопка «Наверх»