Главная » Архив меток: data science

Архив меток: data science

Жизненный цикл статьи на Хабре: пишем хабрапарсер

Привет Хабр! И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно? Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi. Тех кому интересно, что из этого получилось, прошу под ...

Читать далее »

Сезон чемпионатов 2019 открыт! Стартует SNA Hackathon аля ML Boot Camp 8

Привет! Только в прошлом году провели более 10 разных крупных соревнований (Russian AI Cup, ML Boot Camp, Технокубок и другие). Многие из читателей уже знают, что мы стараемся постоянно проводить различные IT-чемпионаты по самым разным тематикам. В них приняло участие не менее 25 000 человек, а с 2011 года — более 150 000. Уже сейчас вы можете присоединиться к Telegram-группам ...

Читать далее »

Краткая история одной «умной ленты»

Внутри же самих социальных сетей самой сложной и интересной задачей в сфере data science по праву считается формирование ленты новостей. Социальные сети — это один из наиболее востребованных на сегодняшний день интернет-продуктов и один из основных источников данных для анализа. А большие объемы данных, высокие нагрузки и жесткие требования к скорости ответа делают задачу ещё интереснее.Казалось бы, задачи ранжирования на ...

Читать далее »

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению

(с) К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания. Эта подборка поможет разобраться, на какие ...

Читать далее »

Как с помощью компьютерного зрения оценить состояние автомобиля. Опыт Яндекс.Такси

И для этого мы используем дистанционный контроль качества (ДКК). Мы стремимся к тому, чтобы после заказа такси к пользователю приезжал чистый, исправный автомобиль той марки, того цвета и с тем номером, которые отображаются в приложении. Сегодня я расскажу читателям Хабра о том, как с помощью машинного обучения снизить затраты на контроль качества в быстро растущем сервисе с сотнями тысяч машин ...

Читать далее »

Приглашаем 22 декабря на Data Ёлку

На встрече мы вместе подытожим, что нового было в разных областях Data Science в 2018-м, обсудим последние новости с NIPS/NeurIPS, ответим на самые актуальные вопросы от участников сообщества, а главное — наградим тех, чей вклад в сообщество ODS стал значимым за последний год. Приглашаем 22 декабря присоединиться к команде Data Science-специалистов и вместе подвести итоги года. Программа 12:00 — 13:30 ...

Читать далее »

Чем поможет машинное обучение, когда каждая минута на счету. Прогнозируем ETA в Яндекс.Такси

Представьте, что вам надо вызвать такси. Вы открываете приложение, видите, что машина приедет минут через семь, нажимаете «Заказать» — и… автомобиль в 15 минутах от вас, если вообще найден. Согласитесь, неприятно? Под катом поговорим о том, как методы машинного обучения помогают Яндекс.Такси более качественно прогнозировать ETA (Estimated Time of Arrival — ожидаемое время прибытия). Для начала напомним, что пользователь видит ...

Читать далее »

Data Science проект от исследования до внедрения на примере Говорящей шляпы

Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ...

Читать далее »

Конференция в Будапеште (29-31 октября) Data Crunch

На эту конференцию приглашают спикеров из Linkedin, Uber, Github и множества компаний "второго эшелона", где люди делятся своим опытом или же рассказывают об инструментах по работе с данными. В этом году я побывал на конференции Data Crunch в Будапеште посвященной аналитике данных и Data Engeneering. Ну и что мне так же интересно — это пообщаться с участниками конференции по понять, ...

Читать далее »

Насколько R быстр для продуктива?

В качестве ИС может быть документооборот, сервис деск, багтрекер, электронный журнал, складской учет и пр. Есть такой популярный класс задач, в которых требуется проводить достаточно глубокий анализ всего объема цепочек работ, регистрируемых какой-либо информационной системой (ИС). И грабли, на которые можно наступить, тоже во многом похожи. Нюансы проявляются в моделях данных, API, объемах данных и иных аспектах, но принципы решения ...

Читать далее »