Главная » Архив меток: Big Data

Архив меток: Big Data

Использование вычислительных возможностей R для проверки стат. гипотез

--- title: "A/B тестирование средствами bootstrap" output: html_notebook: self_contained: TRUE editor_options: chunk_output_type: inline --- library(tidyverse) library(magrittr) library(tictoc) library(glue) library(dabestr) Создадим логнормальное распределение длительности операций. my_rlnorm <- function(n, mean, sd) # N пользователей категории (A = Control) A_control <- my_rlnorm(n = 10^3, mean = 500, sd = 150) %T>% {print(glue("mean = {mean(.)}; sd = {sd(.)}"))} # N пользователей категории (B = ...

Читать далее »

Как геокодировать миллион точек на Spark по-быстрому?

В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом ...

Читать далее »

Как программист датасаентистам кернелы писал

Стек Одноклассников формировался долгие годы, в первую очередь программистами, перешедшими в data science, но всё ещё остались близкими к проду, поэтому в его основе лежат открытые технологии JVM-стека: Hadoop, Spark, Kafka, Cassandra и т.д. Мало кто верит, что современный data science-стек может быть построен не на Python, но такие прецеденты есть :). Например, при подготовке базовых решений для участников SNA ...

Читать далее »

Сезон чемпионатов 2019 открыт! Стартует SNA Hackathon аля ML Boot Camp 8

Привет! Только в прошлом году провели более 10 разных крупных соревнований (Russian AI Cup, ML Boot Camp, Технокубок и другие). Многие из читателей уже знают, что мы стараемся постоянно проводить различные IT-чемпионаты по самым разным тематикам. В них приняло участие не менее 25 000 человек, а с 2011 года — более 150 000. Уже сейчас вы можете присоединиться к Telegram-группам ...

Читать далее »

Пишем XGBoost с нуля — часть 2: градиентный бустинг

Всем привет! В этой статье мы реализуем алгоритм градиентного бустинга и в конце создадим свой собственный XGBoost. В прошлой статье мы разбирались, как устроены решающие деревья, и с нуля реализовалиалгоритм построения, попутно оптимизируя и улучшая его. Повествование будет идти по той же схеме: пишем алгоритм, описываем его, в заверешение подводим итоги, сравнивая результаты работы с аналогами из Sklearn'а. В этой ...

Читать далее »

Пишем XGBoost с нуля — часть 1: деревья решений

Привет, Хабр! Задача на словах простая, но, как известно, дьявол кроется в мелочах, коих в алгоритмах с деревьями очень много. После многочисленных поисков качественных руководств о решающих деревьях и ансамблевых алгоритмах (бустинг, решающий лес и пр.) с их непосредственной реализацией на языках программирования, и так ничего не найдя (кто найдёт — напишите в комментах, может, что-то новое почерпну), я решил ...

Читать далее »

Краткая история одной «умной ленты»

Внутри же самих социальных сетей самой сложной и интересной задачей в сфере data science по праву считается формирование ленты новостей. Социальные сети — это один из наиболее востребованных на сегодняшний день интернет-продуктов и один из основных источников данных для анализа. А большие объемы данных, высокие нагрузки и жесткие требования к скорости ответа делают задачу ещё интереснее.Казалось бы, задачи ранжирования на ...

Читать далее »

[Перевод] Apache Kafka и RabbitMQ: семантика и гарантия доставки сообщений

В этой публикации речь идёт о семантике и гарантии доставки сообщений. Подготовили перевод следующей части многосерийной статьи, где сравнивается функциональность Apache Kafka и RabbitMQ. 10 включительно, а в версии 0. Обращаем ваше внимание, что автор учитывал Кафку до версии 0. Тем не менее, статья остаётся актуальной и полна полезных с практической точки зрения моментов.Предыдущие части: первая, вторая.И RabbitMQ, и Kafka ...

Читать далее »

SAP HANA: где и как эффективно использовать big data и машинное обучение

На парковке аэропорта установлены 20 шлагбаумов для въезда. Рассмотрим конкретный кейс. Зима. Чтобы отслеживать нарушителей, камера распознавания номерных знаков строго фиксирует номер автомобиля, и только после этого открывается шлагбаум. Все номера автомобилей в снегу. Ухудшение погодных условий. Как итог — огромная пробка на въезде, водители путаются и встают в очередь к неработающим шлагбаумам, проезд буксует даже под работающие шлагбаумы, так ...

Читать далее »

[Из песочницы] Микроэлектроника, нейрофизиология и машинное обучение, взболтать, но не перемешивать

В середине 2018 года была опубликована работа по электрофизиологии головного мозга крыс, совместно с которой был выложен в открытый доступ один уникальный набор данных. Уникальность датасета состоит в том, что в нем присутствуют одновременные записи локального полевого потенциала с помощью нового высокоплотного электрода Neuropixels (проба, или probe) и патч-электрода от клетки, находящейся вблизи пробы. Интерес к подобным записям не только ...

Читать далее »