hive
-
Хабрахабр
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)
Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК. Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в…
Читать далее » -
Хабрахабр
Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)
Группа НЛМК- большая компания, производственные активы которой располагаются в разных регионах России и за рубежом. Перед нами стояла задача спроектировать и внедрить новую интеграционную платформу, которая могла бы быть использована для организации информационного обмена, учитывала специфику производственных предприятий и особенности решений, внедренных на протяжении последних десятков лет. Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про…
Читать далее » -
Хабрахабр
[Перевод] Как дебажить запросы, используя только Spark UI
Егор Матешук (CDO AdTech-компании Квант и преподаватель в OTUS) приглашает Data Engineer'ов принять участие в бесплатном Demo-уроке «Spark 3. 0: что нового?». Узнаете, за счет чего Spark 3. 0 добивается высокой производительности, а также рассмотрите другие нововведения. Также приглашаем посмотреть запись трансляции Demo-урока «Написание эффективных пользовательских функций в Spark» и пройти вступительное тестирование по курсу «Экосистема Hadoop, Spark, Hive»! У…
Читать далее » -
Хабрахабр
PVS-Studio в гостях у Apache Hive
Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста количественных показателей, но происходит и изменение его качественного позиционирования на IT-рынке в целом. Не сидя сложа руки, бравая команда PVS-Studio активно способствует закреплению позиций open source проектов, находя затаившиеся баги в…
Читать далее » -
Хабрахабр
Как геокодировать миллион точек на Spark по-быстрому?
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом…
Читать далее » -
Хабрахабр
Считаем статистику по экспериментам на hh.ru
Всем привет! Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Если…
Читать далее » -
Хабрахабр
Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data
Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не…
Читать далее »