Apache Spark
-
Хабрахабр
Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса
Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться. Вспомним, что говорили про большие данные Пятнадцать лет назад эксперты предполагали, что количество данных будет расти очень быстро.…
Читать далее » -
Хабрахабр
Как собрать платформу обработки данных «своими руками»?
Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна дверь закрылась — другая открылась. Альтернатива зарубежным решениям есть: платформу обработки данных можно создать своими силами. Расскажем, как мы в ITSumma это сделали, какие компоненты использовали, с какими ограничениями столкнулись и зачем вообще…
Читать далее » -
Хабрахабр
Путь, который занял 100* лет: встречаем CatBoost 1.0.0
Всем привет. Меня зовут Станислав Кириллов, я работаю в команде, которая отвечает за развитие библиотеки машинного обучения CatBoost. Мы впервые поделились ей с сообществом четыре года назад — хотя мы привыкли строить бинарные деревья, поэтому и отсчёт лет предпочитаем вести так же. Это шутка, конечно, но «столетие» — хороший повод для выпуска первой «production ready» версии библиотеки с символичным номером…
Читать далее » -
Хабрахабр
Apache Spark: оптимизация производительности на реальных примерах
Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком. Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора…
Читать далее » -
Хабрахабр
Практика использования Spark SQL или как не наступить на грабли
Если вы работаете с SQL, то вам это будет нужно очень скоро. Apache Spark – это один из инструментов, входящих в экосистему Hadoop, который обрабатывает данные в оперативной памяти. Одним из его расширений является Spark SQL, позволяющий выполнять SQL-запросы над данными. Spark SQL удобно использовать для работы посредством SQL-запросов с большими объемами данных и в системах с высокой нагрузкой. Ниже…
Читать далее » -
Хабрахабр
6 самых свежих курсов по Azure
Привет, Хабр! Ранее мы опубликовали уже 3 статьи из 5 в нашей серии подборок интересных учебных курсов от Microsoft. Сегодня – уже четвертая часть, и в ней мы расскажем про самые свежие курсы по облаку Azure. Кстати! Все курсы бесплатные (вы даже сможете попробовать платные продукты бесплатно); 5/6 на русском языке; Начать обучение можно мгновенно; По окончании вы получите бейдж…
Читать далее » -
Хабрахабр
[Из песочницы] Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL
И если вы привыкли работать с реляционными СУБД, то познакомиться на практике с NoSQL стоит в первую очередь хотя бы для общего развития. Говорят, в жизни все стоит попробовать хотя бы раз. Те, кто использует NoSQL базы именно там, где они нужны, довольны и получают от данного решения все его плюсы. Сейчас в силу бурного развития этой технологии очень много…
Читать далее » -
Хабрахабр
Митап в Петербурге: Data Engineering и не только
Пришло время рассказать окружающим и самим себе, зачем и как мы работаем. Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Приходится использовать распределенные вычисления? К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили…
Читать далее » -
Хабрахабр
Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения
Часть 1: Постановка задачи Привет, Хабр! Я архитектор решений в компании CleverDATA. Сегодня я расскажу про то, как мы классифицируем большие объемы данных с использованием моделей, построенных с применением практически любой доступной библиотеки машинного обучения. В этой серии из двух статей мы рассмотрим следующие вопросы. Как представить модель машинного обучения в виде сервиса (Model as a Service)? Как физически выполняются…
Читать далее » -
Хабрахабр
[Перевод] Просто добавь воды: разработка с H2O.ai
Привет, Хабр! В течение последних нескольких лет интерес к технологиям машинного обучения и искусственного интеллекта быстро рос. Решение H2O.ai становится все более популярным в этой сфере: оно поддерживает быстрые алгоритмы машинного обучения в оперативной памяти и недавно получило поддержку глубокого обучения. Сегодня поговорим о разработке с использованием H2O. Быстрые, масштабируемые и надежные решения этих категорий все чаще рассматриваются как необходимые…
Читать далее »