Apache Spark

  • ХабрахабрФото Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

    Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

    Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться. Вспомним, что говорили про большие данные Пятнадцать лет назад эксперты предполагали, что количество данных будет расти очень быстро.…

    Читать далее »
  • ХабрахабрФото Как собрать платформу обработки данных «своими руками»?

    Как собрать платформу обработки данных «своими руками»?

    Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна дверь закрылась — другая открылась. Альтернатива зарубежным решениям есть: платформу обработки данных можно создать своими силами. Расскажем, как мы в ITSumma это сделали, какие компоненты использовали, с какими ограничениями столкнулись и зачем вообще…

    Читать далее »
  • ХабрахабрФото Путь, который занял 100* лет: встречаем CatBoost 1.0.0

    Путь, который занял 100* лет: встречаем CatBoost 1.0.0

    Всем привет. Меня зовут Станислав Кириллов, я работаю в команде, которая отвечает за развитие библиотеки машинного обучения CatBoost. Мы впервые поделились ей с сообществом четыре года назад — хотя мы привыкли строить бинарные деревья, поэтому и отсчёт лет предпочитаем вести так же. Это шутка, конечно, но «столетие» — хороший повод для выпуска первой «production ready» версии библиотеки с символичным номером…

    Читать далее »
  • ХабрахабрФото Apache Spark: оптимизация производительности на реальных примерах

    Apache Spark: оптимизация производительности на реальных примерах

    Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком. Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора…

    Читать далее »
  • ХабрахабрФото Практика использования Spark SQL или как не наступить на грабли

    Практика использования Spark SQL или как не наступить на грабли

    Если вы работаете с SQL, то вам это будет нужно очень скоро. Apache Spark – это один из инструментов, входящих в экосистему Hadoop, который обрабатывает данные в оперативной памяти. Одним из его расширений является Spark SQL, позволяющий выполнять SQL-запросы над данными. Spark SQL удобно использовать для работы посредством SQL-запросов с большими объемами данных и в системах с высокой нагрузкой. Ниже…

    Читать далее »
  • ХабрахабрФото 6 самых свежих курсов по Azure

    6 самых свежих курсов по Azure

    Привет, Хабр! Ранее мы опубликовали уже 3 статьи из 5 в нашей серии подборок интересных учебных курсов от Microsoft. Сегодня – уже четвертая часть, и в ней мы расскажем про самые свежие курсы по облаку Azure. Кстати! Все курсы бесплатные (вы даже сможете попробовать платные продукты бесплатно); 5/6 на русском языке; Начать обучение можно мгновенно; По окончании вы получите бейдж…

    Читать далее »
  • ХабрахабрФото [Из песочницы] Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL

    [Из песочницы] Как заглянуть в глаза Кассандре и не потерять при этом данные, стабильность и веру в NoSQL

    И если вы привыкли работать с реляционными СУБД, то познакомиться на практике с NoSQL стоит в первую очередь хотя бы для общего развития. Говорят, в жизни все стоит попробовать хотя бы раз. Те, кто использует NoSQL базы именно там, где они нужны, довольны и получают от данного решения все его плюсы. Сейчас в силу бурного развития этой технологии очень много…

    Читать далее »
  • ХабрахабрФото Митап в Петербурге: Data Engineering и не только

    Митап в Петербурге: Data Engineering и не только

    Пришло время рассказать окружающим и самим себе, зачем и как мы работаем. Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Приходится использовать распределенные вычисления? К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили…

    Читать далее »
  • ХабрахабрФото Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

    Классификация больших объемов данных на Apache Spark с использованием произвольных моделей машинного обучения

    Часть 1: Постановка задачи Привет, Хабр! Я архитектор решений в компании CleverDATA. Сегодня я расскажу про то, как мы классифицируем большие объемы данных с использованием моделей, построенных с применением практически любой доступной библиотеки машинного обучения. В этой серии из двух статей мы рассмотрим следующие вопросы. Как представить модель машинного обучения в виде сервиса (Model as a Service)? Как физически выполняются…

    Читать далее »
  • ХабрахабрФото [Перевод] Просто добавь воды: разработка с H2O.ai

    [Перевод] Просто добавь воды: разработка с H2O.ai

    Привет, Хабр! В течение последних нескольких лет интерес к технологиям машинного обучения и искусственного интеллекта быстро рос. Решение H2O.ai становится все более популярным в этой сфере: оно поддерживает быстрые алгоритмы машинного обучения в оперативной памяти и недавно получило поддержку глубокого обучения. Сегодня поговорим о разработке с использованием H2O. Быстрые, масштабируемые и надежные решения этих категорий все чаще рассматриваются как необходимые…

    Читать далее »


Кнопка «Наверх»