Главная » Архив меток: data science

Архив меток: data science

Чем поможет машинное обучение, когда каждая минута на счету. Прогнозируем ETA в Яндекс.Такси

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно? Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия). Для начала напомним, что пользователь видит ...

Читать далее »

Data Science проект от исследования до внедрения на примере Говорящей шляпы

Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ...

Читать далее »

Конференция в Будапеште (29-31 октября) Data Crunch

На эту конференцию приглашают спикеров из Linkedin, Uber, Github и множества компаний "второго эшелона", где люди делятся своим опытом или же рассказывают об инструментах по работе с данными. В этом году я побывал на конференции Data Crunch в Будапеште посвященной аналитике данных и Data Engeneering. Ну и что мне так же интересно — это пообщаться с участниками конференции по понять, ...

Читать далее »

Насколько R быстр для продуктива?

В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). И грабли, на которые можно наступить, тоже во многом похожи. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения ...

Читать далее »

Совершеннолетняя журналистика: от России до Кремля

Анализ публикаций Lenta.ru за 18 лет (с сентября 1999 по декабрь 2017 гг.) средствами python, sklearn, scipy, XGBoost, pymorphy2, nltk, gensim, MongoDB, Keras и TensorFlow. Автор любезно предоставил 3 гигабайта статей в удобном формате, и я решил, что это прекрасная возможность протестировать некоторые методы текстовой обработки. В исследовании использованы данные из поста «Анализируй это — Lenta.ru» пользователя ildarchegg. Заодно, если ...

Читать далее »

Building client routing / semantic search at Profi.ru

TLDR This is a very short executive summary (or a teaser) about what we managed to do in approximately 2 months in the Profi.ru DS department (I was there for a bit longer, but onboarding myself and my team was a separate thing to be done at first). Projected goals Understand client input / intent and route clients accordingly (we ...

Читать далее »

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)

Предисловие В данной статье мы изучим несколько аспектов SVM: теоретическую составляющую SVM; как алгоритм работает на выборках, которые невозможно разбить на классылинейно; пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn. В следующих статьях, я постараюсь рассказать о математической составляющей этого алгоритма. В зависимости от того, какая из этих задач перед нами стоит, и какой у нас имеется ...

Читать далее »

How linear algebra is applied in machine learning

How are you going to apply all this inversions, transpositions, eigenvector and eigenvalues for practical purposes? When you study an abstract subject like linear algebra, you may wonder: why do you need all these vectors and matrices? Well, if you study linear algebra with the purpose of doing machine learning, this is the answer for you. In brief, you can ...

Читать далее »

Как правильно «фармить» Kaggle

farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.). *фарм — (от англ. И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в ...

Читать далее »

Хакатон по Data Science в СИБУРе: как это было

Привет! В мае мы вместе с AI-community организовывали хакатон по направлению «Цифровизация производства». С начала года мы провели около 10 хакатонов и воркшопов по всей стране. До нас хакатон про data science на производстве ещё не делали, и сегодня мы решили подробно рассказать о том, как это было. Нужно было оцифровать наш бизнес на всех его этапах (от поставок сырья ...

Читать далее »