Главная » Архив меток: Data Mining

Архив меток: Data Mining

Data-mining и Твиттер

Среди социальных сетей Твиттер более других подходит для добычи текстовых данных в силу жесткого ограничения на длину сообщения, в которое пользователи вынуждены поместить все самое существенное. Предлагаю угадать, какую технологию обрамляет это облако слов? Статья о том, как это осуществить с помощью языка программирования R. Используя Твиттер API можно извлекать и анализировать самую разнообразную информацию. Написание кода занимает не так ...

Читать далее »

Как правильно «фармить» Kaggle

farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.). *фарм — (от англ. И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в ...

Читать далее »

Хакатон по Data Science в СИБУРе: как это было

Привет! В мае мы вместе с AI-community организовывали хакатон по направлению «Цифровизация производства». С начала года мы провели около 10 хакатонов и воркшопов по всей стране. До нас хакатон про data science на производстве ещё не делали, и сегодня мы решили подробно рассказать о том, как это было. Нужно было оцифровать наш бизнес на всех его этапах (от поставок сырья ...

Читать далее »

[Из песочницы] MongoDB и исследование рынка ИТ-вакансий

Вы когда-нибудь анализировали вакансии? Месяц назад? Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Год назад? Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются? Поехали! В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Источник Выбор пал ...

Читать далее »

Анализ тональности текстов с помощью сверточных нейронных сетей

Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Представьте, что у вас есть абзац текста. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Можно. CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки тестов. Есть много способов решать такую задачу, и один ...

Читать далее »

SmartData 2018: Первая отменённая конференция JUG.ru Group

А теперь впервые за историю этого блога сообщаем, что уже анонсированная конференция не состоится. Мы множество раз рассказывали на Хабре о том, какие IT-конференции проведём. Несмотря на то, что мы уже пригласили спикеров, забронировали площадку, сделали дизайн и поработали над многим другим, мы были вынуждены принять решение об отмене SmartData 2018. Например, там можно узнать умное выражение «sunk cost fallacy», ...

Читать далее »

[Перевод] Насколько данные для обучения модели (не)похожи на тестовую выборку?

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна. Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». И как будете это делать? Сможете работать с данными? В реальных кейсах такая ситуация встречается повсеместно. При разработке моделей ...

Читать далее »

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги

«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано В моей работе я постоянно встречаю крайне сомнительные визуализации данных. «Плохие графики везде. Но это происходит. Никто не делает плохие графики намеренно. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Опять и опять. Это происходит там, где ...

Читать далее »

Пара мыслей об особенностях Российского Data Science

Люди внимательно слушали, задавали вопросы, благодарили. Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Об этом под катом. Но то что произошло потом было очень показательно. А потом был доклад про новые Российские наработки по НЛП с вот этим вот слайдом. Человека, чьи персональные данные данные и врачебная тайна были так ...

Читать далее »

Анатомия рекомендательных систем. Часть вторая

Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах. Коллаборативная фильтрация (Item-based вариант) Подход Item-based является естественной альтернативой классическому подходу User-based, описанному в первой части, и почти полностью его ...

Читать далее »