Главная » Архив меток: Big Data

Архив меток: Big Data

Приглашаем 22 декабря на Data Ёлку

На встрече мы вместе подытожим, что нового было в разных областях Data Science в 2018-м, обсудим последние новости с NIPS/NeurIPS, ответим на самые актуальные вопросы от участников сообщества, а главное — наградим тех, чей вклад в сообщество ODS стал значимым за последний год. Приглашаем 22 декабря присоединиться к команде Data Science-специалистов и вместе подвести итоги года. Программа 12:00 — 13:30 ...

Читать далее »

Google News и Лев Толстой: визуализация векторных представлений слов с помощью t-SNE

То же касается алгоритмов и методов машинного обучения, которые, как правило, воспринимают тексты в математической в форме, в виде многомерного векторного пространства. Каждый из нас воспринимает тексты по-своему, будь это новости в интернете, поэзия или классические романы. Визуализация позволит полнее понять принцип работы Word2Vec и то, как следует интерпретировать отношения между векторами слов перед дальнейшем использованием в нейросетях и других ...

Читать далее »

Тестирование и отладка MapReduce

В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce. При выполнении ...

Читать далее »

Apache NiFi: что это такое и краткий обзор возможностей

Сегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании. ...

Читать далее »

Граали соревнования Telecom Data Cup. Самое жаркое впереди

Ru Group и МегаФон. В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail. На ней стараемся проводить большинство своих контестов по анализу данных. Соревнование запущено на уже известной платформе ML Boot Camp. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться ...

Читать далее »

Как прогнозировать спрос и автоматизировать закупки с помощью machine learning: кейс Ozon

Значит, все это есть и на складах компании — и чем дольше товары там лежат, тем дороже обходятся компании. В интернет магазине Ozon есть примерно всё: холодильники, детское питание, ноутбуки за 100 тысяч и т.д. Чтобы выяснить, сколько и чего людям захочется заказать, а Ozon нужно будет закупить, мы использовали machine learning. Прогноз продаж: сложности задачи Прежде чем углубляться в ...

Читать далее »

Миграция данных в кровавом энтерпрайзе: что анализировать, чтобы не завалить проект

И не только собрать, а еще очистить от дублей и мусора. Типичный проект системной интеграции для нас выглядит так: у заказчика вагон систем для учета клиентов, задача — собрать клиентские карточки в единую базу. Чтобы на выходе получились чистые, структурированные, полные карточки клиентов. Для начинающих поясню, что миграция идет по такой схеме: источники → преобразование данных (отвечает ETL или шина) → приемник. Самое обидное, что этого можно было избежать.Работали ...

Читать далее »

Apache Spark — достоинства, недостатки, пожелания

Мне давно хотелось изложить свои впечатления об Apache Spark, и тут как раз попалась на глаза вот эта статья от сотрудника Pivotal Robert Bennett, опубликованная совсем недавно, 26 июня 2018. Это не будет перевод, а скорее все-таки мои впечатления и комментарии на тему. Что делает Spark популярным? Цитата: It does in-memory, distributed and iterative computation, which is particularly useful when ...

Читать далее »

Пекин введёт социальный рейтинг для жителей города в 2020 году

Система социального рейтинга в сериале «Чёрное зеркало»: сезон 3, эпизод 1 Очевидно, этим планам не суждено воплотиться в жизнь, и реализация программы в глобальном масштабе займёт гораздо больше времени. Власти Китая ранее заявляли о планах ввести социальный рейтинг для всех 1,3 миллиарда граждан страны в 2020 году. Тем не менее, киберпанковская система социального ранжирования граждан с компьютерным вычислением ценности каждого ...

Читать далее »

[Перевод] Модели Sequence-to-Sequence Ч.1

Всем добрый день! Ну и как обычно интересные открытые уроки и подборки интересных материалов. И у нас снова открыт новый поток на доработанный курс «Data scientist»: ещё один отличный преподаватель, чуть доработанная исходя из обновлений программа. Сегодня мы начнём разбор seq2seq моделей от Tensor Flow. Поехали. И возникает интересный вопрос: возможно ли обучение сети на определенных данных для генерации осмысленного ...

Читать далее »