Главная » Архив меток: hadoop

Архив меток: hadoop

Тестирование и отладка MapReduce

В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce. При выполнении ...

Читать далее »

[Перевод] Дружба, благодаря которой Google вырос до огромных размеров

Программируя вместе за одним компьютером, Джефф Дин и Санджай Гемават изменили курс компании — и весь Интернет. На иллюстрации: лучшие программисты Google иногда кажутся двумя полушариями одного мозга. Рисунок Дэвида Планкерта Произошло ЧП: с октября 1999 года остановились краулеры. Однажды в марте 2000 года шесть лучших инженеров Google собрались в импровизированном конференц-зале. На карту было поставлено больше, чем предполагали инженеры. ...

Читать далее »

Apache NiFi: что это такое и краткий обзор возможностей

Сегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании. ...

Читать далее »

Apache Spark — достоинства, недостатки, пожелания

Мне давно хотелось изложить свои впечатления об Apache Spark, и тут как раз попалась на глаза вот эта статья от сотрудника Pivotal Robert Bennett, опубликованная совсем недавно, 26 июня 2018. Это не будет перевод, а скорее все-таки мои впечатления и комментарии на тему. Что делает Spark популярным? Цитата: It does in-memory, distributed and iterative computation, which is particularly useful when ...

Читать далее »

Посекундный биллинг, маркетплейс и песочницы для Big Data: что могут тестовые среды в облаке

Любой компании, разрабатывающей софт, нужны тестовые среды, приближенные к продакшн-окружению. Особенно это актуально для коробочного ПО, у которого длинный цикл релизов.Многие проблемы построения тестовых сред решает их размещение в облаке. Мы расскажем про возможности тестирования на нашей облачной платформе Mail.Ru Cloud Solutions (MCS). Но часть из того, что мы расскажем, верна для любого облака. Сложности настройки тестового окружения Прежде чем ...

Читать далее »

[recovery mode] Обзор Hadoop от Google (dataproc)

Некоторое время назад я активировал у гугла бесплатный триал под их клауд, задачку я свою не решил, оказалось гугл дает $300 на 12 месяцев под триал, однако вопреки моим ожиданиям кроме лимита бюджета накладываются и другие лимиты. Например не позволил использовать виртуалки более 8 vcpu в одном регионе. Спустя пол года решил использовать триальный бюджет на знакомство с dataproc, предустановленный ...

Читать далее »

Считаем статистику по экспериментам на hh.ru

Всем привет! Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Если ...

Читать далее »

Теория и практика использования HBase

Добрый день! Меня зовут Данил Липовой, наша команда в Сбертехе начала использовать HBase в качестве хранилища оперативных данных. В ходе его изучения накопился опыт, который захотелось систематизировать и описать (надеемся, что многим будет полезно). Все приведенные ниже эксперименты проводились с версиями HBase 1.2.0-cdh5.14.2 и 2.0.0-cdh6.0.0-beta1. Общая архитектура Запись данных в HBASE Чтение данных из HBASE Кэширование данных Пакетная обработка данных ...

Читать далее »

Проблемы матчинга и как можно с ними бороться

Добрый день! Меня зовут Алексей Булавин, я представляю центр компетенций Сбертеха по Big Data. Представители бизнеса, владельцы продуктов и аналитики часто задают мне вопросы по одной и той же теме — матчинг. Что это такое? Зачем и как его делать? Особенно популярен вопрос «Почему он может не получиться?» В этой статье я постараюсь на них ответить. Начнем с бытового примера. ...

Читать далее »

[Из песочницы] Обзор кейсов интересных внедрений Big Data в компаниях финансового сектора

Кейсы практического применения Больших данныхв компаниях финансового сектора Зачем эта статья?В данном обзоре рассматриваются случаи внедрения и применения Больших данных в реальной жизни на примере «живых» проектов. По некоторым, особенно интересным, во всех смыслах, кейсам осмелюсь дать свои комментарии. Диапазон рассмотренных кейсов ограничивается примерами, представленными в открытом доступе на сайте компании Cloudera. Что такое «Большие данные» Есть в технических кругах ...

Читать далее »