spark streaming

  • ХабрахабрФото Что лучше: Spark Structured Streaming или полное прекращение работы прода?

    Что лучше: Spark Structured Streaming или полное прекращение работы прода?

    Правильное построение ETL-процессов (преобразования данных) — сложная задача, а при большом объёме обрабатываемых данных неизбежно возникают проблемы с ресурсами. Поэтому нам требуется выискивать новые архитектурные решения, способные обеспечить стабильность расчётов и доступность данных, а при необходимости и масштабируемость — с минимальными усилиями. Когда я пришел в Ozon, мне пришлось столкнуться с огромным количеством ETL-джоб. Прежде чем применить модель машинного обучения,…

    Читать далее »
  • ХабрахабрФото Apache Kafka и потоковая обработка данных с помощью Spark Streaming

    Apache Kafka и потоковая обработка данных с помощью Spark Streaming

    Привет, Хабр! Сегодня мы построим систему, которая будет при помощи Spark Streaming обрабатывать потоки сообщений Apache Kafka и записывать результат обработки в облачную базу данных AWS RDS. Это может быть сделано с целью оперативного расчета открытой валютой позиции для казначейства, лимитов или финансового результата по сделкам и т.д. Представим, что некая кредитная организация ставит перед нами задачу обработки входящих транзакций…

    Читать далее »
  • ХабрахабрФото [Из песочницы] Cassandra Sink для Spark Structured Streaming

    [Из песочницы] Cassandra Sink для Spark Structured Streaming

    Пару месяцев назад я начала изучать Spark, и в какой-то момент столкнулась с проблемой сохранения вычислений Structured Streaming в базе данных Cassandra. Я надеюсь, что пост будет полезен тем, кто недавно начал работать со Spark Structured Streaming и задается вопросом, как выгружать результаты вычислений в базу данных. В данном посте я привожу простой пример создания и использования Cassandra Sink для…

    Читать далее »
  • ХабрахабрФото [Перевод] Интеграция Spark Streaming и Kafka

    [Перевод] Интеграция Spark Streaming и Kafka

    Здравствуйте, коллеги! Напоминаем, что не так давно у нас вышла книга о Spark, а прямо сейчас проходит последнюю корректуру книга о Kafka. Надеемся, эти книги окажутся достаточно успешными для продолжения темы — например, для перевода и издания литературы по Spark Streaming. Перевод об интеграции этой технологии с Kafka мы и хотели вам сегодня предложить1. Обоснование В этой статье мы подробно…

    Читать далее »


Кнопка «Наверх»