Главная » Архив меток: Big Data

Архив меток: Big Data

Теория и практика использования HBase

Добрый день! Меня зовут Данил Липовой, наша команда в Сбертехе начала использовать HBase в качестве хранилища оперативных данных. В ходе его изучения накопился опыт, который захотелось систематизировать и описать (надеемся, что многим будет полезно). Все приведенные ниже эксперименты проводились с версиями HBase 1.2.0-cdh5.14.2 и 2.0.0-cdh6.0.0-beta1. Общая архитектура Запись данных в HBASE Чтение данных из HBASE Кэширование данных Пакетная обработка данных ...

Читать далее »

Бизнес просит право на персональные данные пользователей

В случае их принятия компании получат больше контроля над данными пользователей. Представители бизнеса, IT-компании, банки и операторы связи предложили поправки в закон «О персональных данных». Подрядчики в свою очередь смогут передавать данные дальше, говоря об этом только своему заказчику. Об этом пишут «Ведомости», которые ознакомились с текстом поправок.Как сообщает издание, компании смогут передавать данные на обработку подрядчикам, не уведомляя об ...

Читать далее »

Ни GA, ни ЯМ. Как мы сделали собственный кликстрим

Благодаря этому можем узнать кучу необходимых вещей: нажимают ли на сердечки больше, чем на звёздочки, в какие часы пишут более развёрнутые описания, в каких регионах чаще промахиваются по зелёным кнопкам. Мы собираем более двух миллиардов аналитических событий в сутки. Расскажу о технической стороне кликстрима в Авито: устройство событий, их отправка и доставка, аналитика, отчёты. Систему сбора и анализа событий можно ...

Читать далее »

Deep Learning: Распознавание сцен и достопримечательностей на изображениях

Время пополнять копилку хороших русскоязычных докладов по Machine Learning! Копилка сама не пополнится! Андрей — программист-исследователь, занимающийся машинным зрением в компании Mail. В этот раз мы познакомимся с увлекательным рассказом Андрея Боярова про распознавание сцен. Ru Group. Задача эта посложнее, чем изученное распознавание объектов: сцена — более комплексное и менее формализованное понятие, выделить признаки труднее. Распознавание сцен — одна из ...

Читать далее »

Зачем вам нужен Splunk? Аналитика событий безопасности

Какие внутренние угрозы есть у организации? Было ли нарушение информационной безопасности предприятия? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы.Этой статьей мы продолжаем цикл статей о том, для решения каких задач можно использовать Splunk и сегодня мы будем подробнее разбираться с тем, как можно использовать Splunk для аналитики событий безопасности. Как и ...

Читать далее »

«Кто вчера был монопольным гигантом, завтра может стать никем». Интервью с Евгением Черешневым из Biolink.Tech

Почти два часа мы проговорили с Евгением Черешневым о том, что с Facebook и Google можно и нужно тягаться. Он рассказал, какую альтернативную софтверную платформу он готовит и что за умный браслет разрабатывают в его компании Biolink.Tech. Я выяснил, как ему третий год живется с чипом в руке и что такое цифровая ДНК. А напоследок поговорили о том, кем круче ...

Читать далее »

Игра для улучшения качества Википедии

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков. В научном мире существуют различные подходы к автоматической оценке качества статей в этой свободной энциклопедии. ...

Читать далее »

RabbitMQ против Kafka: применение Kafka в событийно ориентированных приложениях

В этой части мы обратимся к Kafka и сравним её с RabbitMQ, чтобы получить некоторые представления об их различиях. В предыдущей статье мы рассмотрели шаблоны и топологии, применяемые в RabbitMQ. Вообще, это скорее спектр, чем четкое разделение. Следует иметь в виду, что сравниваться будут скорее архитектуры событийно-ориентированных приложений, а не конвейеры обработки данных, хотя грань между этими двумя понятиями в ...

Читать далее »

[Перевод] Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным

В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. Наслаждайтесь. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Нейронные сети Памятка по нейронным сетям Графы нейронных сетей Памятка по графикам нейронных ...

Читать далее »

Зачем вам нужен Splunk? Аналитика работы приложений

Можем ли мы выявить проблемы с приложениями до того, как с этим столкнутся конечные пользователи? Почему мобильное приложение вышло из строя? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы.Этой статьей мы начинаем цикл статей о том, для решения каких задач можно использовать Splunk. Является ли последняя версия приложения лучше или хуже, чем ...

Читать далее »