hive

  • ХабрахабрФото Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

    Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

    Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК. Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в…

    Читать далее »
  • ХабрахабрФото Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

    Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

    Группа НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет. Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про…

    Читать далее »
  • ХабрахабрФото [Перевод] Как дебажить запросы, используя только Spark UI

    [Перевод] Как дебажить запросы, используя только Spark UI

    Егор Матешук (CDO AdTech-компании Квант и преподаватель в OTUS) приглашает Data Engineer'ов принять участие в бесплатном Demo-уроке «Spark 3. 0: что нового?». Узнаете, за счет чего Spark 3. 0 добивается высокой производительности, а также рассмотрите другие нововведения. Также приглашаем посмотреть запись трансляции Demo-урока «Написание эффективных пользовательских функций в Spark» и пройти вступительное тестирование по курсу «Экосистема Hadoop, Spark, Hive»! У…

    Читать далее »
  • ХабрахабрФото PVS-Studio в гостях у Apache Hive

    PVS-Studio в гостях у Apache Hive

    Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста количественных показателей, но происходит и изменение его качественного позиционирования на IT-рынке в целом. Не сидя сложа руки, бравая команда PVS-Studio активно способствует закреплению позиций open source проектов, находя затаившиеся баги в…

    Читать далее »
  • ХабрахабрФото Как геокодировать миллион точек на Spark по-быстрому?

    Как геокодировать миллион точек на Spark по-быстрому?

    В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом…

    Читать далее »
  • ХабрахабрФото Считаем статистику по экспериментам на hh.ru

    Считаем статистику по экспериментам на hh.ru

    Всем привет! Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Если…

    Читать далее »
  • ХабрахабрФото Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

    Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

    Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не…

    Читать далее »


Кнопка «Наверх»