data

  • ХабрахабрФото Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

    Data больше не Big: как данные перестали быть большими и почему это полезно для бизнеса

    Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться. Вспомним, что говорили про большие данные Пятнадцать лет назад эксперты предполагали, что количество данных будет расти очень быстро.…

    Читать далее »
  • ХабрахабрФото Ближайшие бесплатные мероприятия по разработке (27 июня — 29 июня 2023)

    Ближайшие бесплатные мероприятия по разработке (27 июня — 29 июня 2023)

    ➖➖➖ 🗓 27 июня, 18:00–19:00 мск, Вторник🌐 ОНЛАЙН✅ X5 Tech: Customer Analytics MeetupКак мы в кратчайшие сроки нашли и внедрили альтернативное решение для предоставления клиентской аналитики в режиме реального времени на базе open-source технологий Clickhouse и Redis. ➖➖➖ 🗓 28 июня, 18:00–20:00 мск, Среда🌐 ОНЛАЙН | 📍 ОФЛАЙН, Санкт-Петербург✅ Ozon Tech Community Platform Meetup1. Как уcтроена платформа в реальной жизни2.…

    Читать далее »
  • ХабрахабрФото Dedup Windows vs Linux, MS снова “удивит”?

    Dedup Windows vs Linux, MS снова “удивит”?

    Пока делал все тесты и писал статью меня так и преследовало устойчивое выражение. Когда коту делать нефиг, он яйца лижет.Вот так и я. Что имеем или наша лаба. Для тестов я буду использовать Virtualbox 7. 0. 4 и установленные в ней виртуальные машины. Host PC:Intel Core i7-10510U CPU 1. 80GHz / 2. 30 GHz4 CPU (8 CPU with HT)32GB RAMNVME…

    Читать далее »
  • СофтФото Получаем сертификат ЦРУ перебирая архивы

    Получаем сертификат ЦРУ перебирая архивы

    Когда-то давно передо мной стояла задача по поиску файлов на ресурсах, которые могли уже не работать или определённые данные с них были удалены. Тогда для этой цели я использовал веб архивы Common Crawl и самопальный инструмент для автоматизации взаимодействия с ним. Сейчас мне понадобилось решить схожую задачу, но Common Crawl упал и пока не встаёт... Поэтому было принято решение допилить…

    Читать далее »
  • ХабрахабрФото Экспресс-анализ данных на Python

    Экспресс-анализ данных на Python

    Вводная В рамках расширения своих компетенций периодически провожу анализ данных датасетов. В какой-то момент осознал, что трачу время на столбцы с аналитиками, в которых все в порядке. Данные полные, тип данных единый, интерпретация понятна. Если столбцов несколько десятков, то обзорная проверка атрибутов каждого столбца занимает довольно значительное время. Посмотрел в сторону библиотеки pandas-profiling. Мне показалось, что инструмент хорошо подходит для…

    Читать далее »
  • ХабрахабрФото [Перевод] Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

    [Перевод] Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

    На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети…

    Читать далее »
  • ХабрахабрФото Покупка гаража как инвестиция

    Покупка гаража как инвестиция

    Этот проект родился после беседы с друзьями об инвестициях в недвижимость. Обсуждали, как выгодно купить квартиру, паркинг или келлер под сдачу и выгодно ли вообще. Я решил проанализировать рынок продажи и аренды гаражей и парковочных мест своего города. Квартиры – слишком дорогие объекты для инвестиций, а что касается гаражей и паркингов – тут «вход» гораздо меньше, и на аренду вроде…

    Читать далее »
  • ХабрахабрФото Страдающее ML: как мы автоматизировали проверку данных, чтобы не было мучительно больно

    Страдающее ML: как мы автоматизировали проверку данных, чтобы не было мучительно больно

    Работать с данными — муторно, но есть кое-что похуже — проверять их качество. Больше данных — больше изматывающих ручных проверок и меньше уверенности, что с массивом всё в порядке. Я разрабатываю ML-модели для розничного бизнеса, провожу A/B-тесты и оцениваю бизнес-эффекты в Газпромбанке. Год назад мы разработали систему, которая показывает, где и насколько данные плохи, а инженерам остаётся только разобраться почему.…

    Читать далее »
  • ХабрахабрФото [Перевод] Сборка мусора в неисправных JVM, проактивный подход

    [Перевод] Сборка мусора в неисправных JVM, проактивный подход

    Команда Netflix Cloud Data Engineering работает с различными приложениями для JVM, включая такие популярные хранилища данных, как Cassandra и Elasticsearch. Хотя большинство наших кластеров стабильно работают, обходясь выделенной им памятью, иногда «запрос смерти» или ошибка в самом хранилище данных приводят к перерасходу памяти, что может спровоцировать лишние циклы сборки мусора или даже привести к исчерпанию памяти в JVM.Мы создали инструмент…

    Читать далее »
  • ХабрахабрФото Как построить прогноз спроса и не потерять голову

    Как построить прогноз спроса и не потерять голову

    Какой ваш прогноз спроса? Всем привет! Представьте себе ситуацию: ваша уютная маленькая команда Data Science занимается прогнозированием спроса для пары десятков дарксторов с помощью какого-нибудь коробочного Prophet. И в один прекрасный день к ней приходит бизнес. Бизнес садится, закидывает ногу на ногу, закуривает сигару и говорит: «Мы хотим максимально автоматизировать закупки. Нам нужно, чтобы вы умели строить прогноз по всем…

    Читать далее »


Кнопка «Наверх»