ORC-файл

  • ХабрахабрФото Зачем Data-инженеру Spark

    Зачем Data-инженеру Spark

    Привет, Хабр, меня зовут Дима. В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно работаем со стеком Hadoop, Hive, Spark, Clickhouse и Kafka. Я хочу остановиться на некоторых аспектах работы с данными в Spark: как мы храним петабайты информации и как выполняем запросы к ним?…

    Читать далее »
  • ХабрахабрФото [Перевод] Новое в Hadoop: познакомимся с различными форматами файлов в Hadoop

    [Перевод] Новое в Hadoop: познакомимся с различными форматами файлов в Hadoop

    Публикуем перевод статьи, подготовленный для студентов новой группы курса «Data Engineer». Всем привет! Если интересно узнать, как построить эффективную и масштабируемую систему обработки данных с минимальными затратами, посмотрите запись мастер-класса Егора Матешука! В этой статье ядам краткое описание различных файловых форматов в Hadoop. Несколько недель назад я написал о Hadoop статью, где осветил различные егочасти и разобрался в том, какую…

    Читать далее »


Кнопка «Наверх»