Big Data

  • ХабрахабрФото Техномагия для гиганта: как IT двигает ЕВРАЗ, а ЕВРАЗ качает IT

    Техномагия для гиганта: как IT двигает ЕВРАЗ, а ЕВРАЗ качает IT

    Видите на фото раскалённые потоки металла? Пока это полупродукт, а полноценной сталью его делают дорогостоящие добавки, максимальное и минимальное количество которых определяет ГОСТ. Отмеряет и добавляет их технолог на производстве, а мы разрабатываем и поддерживаем подсказчик, который помогает избежать перерасхода. Сначала служба БСЕ ЕВРАЗа (специалисты, которые направленно смотрят, что и где можно улучшить, и помогают реализовать улучшение) вместе с технологами от производства подбирали проекты с наибольшим экономическим эффектом и увидели, что можно оптимизировать расход добавок.…

    Читать далее »
  • ХабрахабрФото Классификация кассовых чеков

    Классификация кассовых чеков

    Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из…

    Читать далее »
  • ХабрахабрФото Как мы собираем данные для аналитики с помощью Apache NiFi

    Как мы собираем данные для аналитики с помощью Apache NiFi

    Привет, Хабр! Мы команда мониторинга и анализа данных биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы собираем данные для аналитики из практически всех сервисов компании и при этом вполне успешно справляемся без полноценного дата-инженера. Пост будет интересен как тем, кто только ищет решение для ETL, так и тем, кто уже работает с NiFi или другими аналогичными инструментами и…

    Читать далее »
  • ХабрахабрФото Style transfer для сериала «Друзья»

    Style transfer для сериала «Друзья»

    Введение В данном посте мы, с помощью методов автоматической обработки текстов (Natural Language Processing или просто NLP), исследуем стиль речи 6 главных героев знаменитого сериала «Друзья», проведем мультиязычный анализ для русского и английского языков, а также обучим нейросеть общаться в стиле главных героев Друзей. Intro Перенос стиля (Style transfer) стремительно завоевывает популярность в NLP, и сегодня его используют в самых…

    Читать далее »
  • ХабрахабрФото Data Science с нуля. Большая подборка курсов

    Data Science с нуля. Большая подборка курсов

    Привет, читатель! Меня зовут Артём Сайгин, я веду проект Growth lab, в котором рассказываю о digital-маркетинге и росте IT-продуктов. Сделал подборку из бесплатных курсов, для тех, кто делает свои первые шаги в Data Science. Делал изначально для себя, чтобы структурировать и упорядочить свои знания, но решил, что подборка будет полезна кому-то ещё. Курсы упорядочены по степени необходимости, начиная с базовых знаний,…

    Читать далее »
  • ХабрахабрФото [Перевод] Data Science: лучшие учебные курсы и программы сертификации

    [Перевод] Data Science: лучшие учебные курсы и программы сертификации

    Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации…

    Читать далее »
  • ХабрахабрФото Влияние загрязение воздуха на тяжесть течения Covid- 19

    Влияние загрязение воздуха на тяжесть течения Covid- 19

    Продолжаю цикл статей основанных на анализе базы московских больных. В настоящей второй части я буду анализировать влияние загрязнение воздуха на тяжесть течения заболевания. В этом нам поможет сайт с открытыми данными г. Москвы, на котором представлена информация с небольшого количества метеорологических станций. Первая часть: https://habr.com/ru/post/580434/ Итак, на портале открытых данных правительства Москвы есть наборы данных: "Автоматические станции контроля загрязнения атмосферы"…

    Читать далее »
  • ХабрахабрФото Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

    Так вот кто все эти люди: DS-анализ результатов опроса о Data Science

    Помимо стандартных инструментов для DS (Python, Jupyter, PyTorch и т. д.), в командах Сбера используют разные технологии. Для работы с Big Data — Hadoop, Kafka, Spark, Flink, Beam. Инструменты MLOps — Airflow, Jenkins, Nexus3, OpenShift, Docker, DVC, MLflow. Для ускорения DL-пайплайнов — TensorRT, ONNX, OpenVINO, Horovod, DeepSpeed. Ещё мы используем собственные AutoML-фреймворки, например LAMA. А для работы с тяжелыми DL-пайплайнами у нас есть платформа ML Space.

    Читать далее »
  • ХабрахабрФото [Перевод] Как Airbnb ошиблась и зачем строила Wall

    [Перевод] Как Airbnb ошиблась и зачем строила Wall

    Чтобы ускорить принятие решений и лучше поддерживать мониторинг метрик бизнеса, в Airbnb внедрили сертификацию всех метрик и наборов данных, написали рекомендации о проверках качества данных, но не обеспечили их выполнение. О возникшей из-за этого проблеме и её решении рассказываем к старту флагманского курса по Data Science. Добавление проверок качества данных в конвейер стало стандартной практикой в нашем рабочем процессе инженерии…

    Читать далее »
  • ХабрахабрФото Apache Spark: оптимизация производительности на реальных примерах

    Apache Spark: оптимизация производительности на реальных примерах

    Apache Spark – фреймворк для обработки больших данных, который давно уже стал одним из самых популярных и часто встречаемых во всевозможных проектах, связанных с Big Data. Он удачно сочетает в себе скорость работы и простоту выражения своих мыслей разработчиком. Разработчик работает с данными на достаточно высоком уровне и, кажется, что нет ничего сложного в том, чтобы, например, соединить два набора…

    Читать далее »


Кнопка «Наверх»