Главная » Архив меток: Big Data

Архив меток: Big Data

С бородой, в тёмных очках и в профиль: трудные ситуации для компьютерного зрения

Вызревали как хороший сыр или коньяк. Технологии и модели для нашей будущей системы компьютерного зрения создавались и совершенствовались постепенно и в разных проектах нашей компании — в Почте, Облаке, Поиске. Однажды мы поняли, что наши нейросети показывают отличные результаты в распознавании, и решили свести их в единый b2b-продукт — Vision, — которым мы теперь пользуемся сами и предлагаем воспользоваться вам. ...

Читать далее »

SNA Hackathon 2019 — итоги

Жесткий онлайн отбор и двое суток напряженной работы над 160 гигабайтами данных не прошли даром :). 1-го апреля завершился финал SNA Hackathon 2019, участники которого соревновались в сортировке ленты социальной сети с использованием современных технологий машинного обучения, компьютерного зрения, обработки тестов и рекомендательных систем. Рассказываем о том, что помогло участникам прийти к успеху и о других интересных наблюдениях. На конкурс ...

Читать далее »

Продуктовая аналитика ВКонтакте на базе ClickHouse

Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить. Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. В этой статье я расскажу, как ...

Читать далее »

Big data, deus ex machina

Источник Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». «Данные — это новая нефть». Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес. Сегодня мы хотим поговорить не просто о данных, а ...

Читать далее »

[Из песочницы] Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

Кто мы такие и какие были предпосылки проекта? Добрый день, меня зовут Лазарев Владимир, я руководитель BI-интегратора Аналитикс Групп. Мы делаем для бизнеса наглядные отчёты по маркетингу, продажам, финансам, логистике на базе ведущих аналитических платформ Qlik Sense, Power BI, Tableau. Если вы посмотрели десятки демо-отчетов BI-систем и вам не нравится как выглядит та или иная платформа, то скорее всего вы ...

Читать далее »

Python vs. Scala для Apache Spark — ожидаемый benchmark с неожиданным результатом

Немалый вклад в её популярность вносит и возможность использования из-под Python. Apache Spark на сегодняшний день является, пожалуй, наиболее популярной платформой для анализа данных большого объема. Попробуем разобраться в том, насколько увеличиваются накладные расходы в этом случае, на примере задачи проверки решения SNA Hackathon 2019. При этом все сходятся на том, что в рамках стандартного API производительность кода на Python ...

Читать далее »

Для чего нам в СИБУРе продвинутая аналитика

Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий раз. Что бы вы ни делали, от небольших мобильных приложений до громоздких информационных систем, у ошибки всегда есть цена, и чем более критична отрасль, в которой используется ваш продукт, тем выше цена этой ошибки. ...

Читать далее »

Анализ данных на Scala — суровая необходимость или приятная возможность?

Однако бывают ситуации, когда ограничения этих инструментов становятся существенной помехой — в первую очередь, если необходимо добиться высоких показателей по скорости обработки и/или работать с действительно крупными массивами данных. Традиционными инструментами в сфере Data Science являются такие языки, как R и Python — расслабленный синтаксис и большое количество библиотек для машинного обучения и обработки данных позволяет достаточно быстро получить некоторые ...

Читать далее »

Разгоняем обработку событий до 1,6 миллионов в секунду

Когда участники HighLoad++ пришли на доклад Александра Крашенинникова, они надеялись услышать про обработку 1 600 000 событий в секунду. Ожидания не оправдались… Потому что во время подготовки к выступлению эта цифра улетела до 1 800 000 — так, на HighLoad++ реальность превосходит ожидания. С тех пор она эволюционировала, в процессе росли объёмы, приходилось решать задачи масштабирования и отказоустойчивости, а в ...

Читать далее »

[Перевод] Руководство по использованию pandas для анализа больших наборов данных

При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании наборов данных, размеры которых могут достигать нескольких гигабайт, проблемы с производительностью могут приводить к значительному увеличению длительности анализа данных и даже могут становиться причиной невозможности проведения анализа из-за нехватки памяти. И, в сравнении с pandas, ...

Читать далее »