hadoop

  • ХабрахабрФото Как автоматизировать администрирование Hadoop, чтобы не было мучительно больно

    Как автоматизировать администрирование Hadoop, чтобы не было мучительно больно

    Привет, Хабр! Меня зовут Александр Черёмухин, я тимлид администраторов Hadoop в Big Data МТС. Мы прошли довольно длинный эволюционный путь в автоматизации администрирования и хотелось бы им поделиться с сообществом. Возможно наш опыт пригодится и другим специалистам, работающим с Hadoop. Примечание: об этом решении Саша рассказал на прошедшем митапе администраторов Hadoop, если вам больше нравится формат видео — смотрите его…

    Читать далее »
  • ХабрахабрФото Администрирование Informatica PowerCenter в деталях, часть первая

    Администрирование Informatica PowerCenter в деталях, часть первая

    [unable to retrieve full-text content]

    Читать далее »
  • ХабрахабрФото [Перевод] Как дебажить запросы, используя только Spark UI

    [Перевод] Как дебажить запросы, используя только Spark UI

    Егор Матешук (CDO AdTech-компании Квант и преподаватель в OTUS) приглашает Data Engineer'ов принять участие в бесплатном Demo-уроке «Spark 3. 0: что нового?». Узнаете, за счет чего Spark 3. 0 добивается высокой производительности, а также рассмотрите другие нововведения. Также приглашаем посмотреть запись трансляции Demo-урока «Написание эффективных пользовательских функций в Spark» и пройти вступительное тестирование по курсу «Экосистема Hadoop, Spark, Hive»! У…

    Читать далее »
  • СофтФото Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0

    Apache Software Foundation опубликовала релиз платформы Apache Hadoop 3.3.0

    Apache Software Foundation выпустила свежий релиз своей платформы — Apache Hadoop 3.3.0. С момента последнего обновления прошло полтора года. Сама платформа представляет собой инструмент для организации распределенной обработки больших объемов данных с использованием MapReduce. Hadoop включает в себя набор утилит, библиотек и фреймворков для разработки и выполнения распределенных программ, которые способны работать на кластерах из тысяч узлов. Для Hadoop создана…

    Читать далее »
  • ХабрахабрФото [Перевод] Форматы файлов в больших данных: краткий ликбез

    [Перевод] Форматы файлов в больших данных: краткий ликбез

    Weather Deity by Remarin Команда Mail.ru Cloud Solutions предлагает перевод статьи инженера Рахула Бхатии из компании Clairvoyant о том, какие есть форматы файлов в больших данных, какие самые распространенные функции форматов Hadoop и какой формат лучше использовать. Зачем нужны разные форматы файлов Серьезное узкое место в производительности приложений с поддержкой HDFS, таких как MapReduce и Spark — время поиска, чтения,…

    Читать далее »
  • ХабрахабрФото Apache Bigtop и выбор Hadoop-дистрибутива сегодня

    Apache Bigtop и выбор Hadoop-дистрибутива сегодня

    Наверное, ни для кого не секрет, что прошлый год для Apache Hadoop стал годом больших перемен. В прошлом году произошло слияние Cloudera и Hortonworks (по сути, поглощение второго), а Mapr, в виду серьезных финансовых проблем, был продан Hewlett Packard. И если несколькими годами ранее, в случае on-premises инсталляций, выбор чаще приходилось делать между Cloudera и Hortonworks, то сегодня, увы, этого…

    Читать далее »
  • ХабрахабрФото «Hadoop. ZooKeeper» из серии Технострима Mail.Ru Group «Методы распределенной обработки больших объемов данных в Hadoop»

    «Hadoop. ZooKeeper» из серии Технострима Mail.Ru Group «Методы распределенной обработки больших объемов данных в Hadoop»

    Предлагаю ознакомиться с расшифровкой лекции "Hadoop. ZooKeeper" из серии "Методы распределенной обработки больших объемов данных в Hadoop" Что такое ZooKeeper, его место в экосистеме Hadoop. Неправда о распределённых вычислениях. Схема стандартной распределённой системы. Сложность координации распределённых систем. Типичные проблемы координации. Принципы, заложенные в дизайн ZooKeeper. Модель данных ZooKeeper. Флаги znode. Сессии. Клиентский API. Примитивы (configuration, group membership, simple locks, leader…

    Читать далее »
  • ХабрахабрФото [Перевод] Новое в Hadoop: познакомимся с различными форматами файлов в Hadoop

    [Перевод] Новое в Hadoop: познакомимся с различными форматами файлов в Hadoop

    Публикуем перевод статьи, подготовленный для студентов новой группы курса «Data Engineer». Всем привет! Если интересно узнать, как построить эффективную и масштабируемую систему обработки данных с минимальными затратами, посмотрите запись мастер-класса Егора Матешука! В этой статье ядам краткое описание различных файловых форматов в Hadoop. Несколько недель назад я написал о Hadoop статью, где осветил различные егочасти и разобрался в том, какую…

    Читать далее »
  • ХабрахабрФото PVS-Studio в гостях у Apache Hive

    PVS-Studio в гостях у Apache Hive

    Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста количественных показателей, но происходит и изменение его качественного позиционирования на IT-рынке в целом. Не сидя сложа руки, бравая команда PVS-Studio активно способствует закреплению позиций open source проектов, находя затаившиеся баги в…

    Читать далее »
  • ХабрахабрФото Big data, deus ex machina

    Big data, deus ex machina

    Источник Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». «Данные — это новая нефть». Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес. Сегодня мы хотим поговорить не просто о данных, а…

    Читать далее »


Кнопка «Наверх»