Главная » Архив меток: Big Data

Архив меток: Big Data

Целостность данных в микросервисной архитектуре — как её обеспечить без распределенных транзакций и жёсткой связности

Как вы, возможно, знаете, раньше я все больше писал и рассказывал про хранилища, Vertica, хранилища больших данных и прочие аналитические вещи. Всем привет. Сейчас в область моей ответственности упали и все остальные базы, не только аналитические, но и OLTP (PostgreSQL), и NOSQL (MongoDB, Redis, Tarantool). Единую распределенную гетерогенную базу, состоящую из кучи PostgreSQL, Redis-ов и Монг… И, возможно, из одной-двух ...

Читать далее »

Как Яндекс создал глобальный прогноз осадков с использованием радаров и спутников

У команды Яндекс.Погоды есть традиция рассказывать о новых технологиях на Хабре. Мы уже рассказывали, как методы машинного обучения позволили создать более точный прогноз погоды, а также о том, как нейросети и данные с радаров помогают прогнозировать осадки. И помогли нам в этом снимки со спутников. Сегодня мы расскажем читателям Хабра о новой технологии, с помощью которое нам удалось добиться прогнозирования ...

Читать далее »

Парсим Википедию для задач NLP в 4 команды

Оказывается для этого достаточно запуcтить всего лишь такой набор команд: git clone https://github.com/attardi/wikiextractor.git cd wikiextractor wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2 и потом немного отполировать скриптом для пост-процессинга python3 process_wikipedia.py Результат — готовый .csv файл с вашим корпусом. Понятное дело, что: http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 можно поменять на нужный вам язык, больше деталей тут [4]; Всю информацию о параметрах ...

Читать далее »

[Из песочницы] Cassandra Sink для Spark Structured Streaming

Пару месяцев назад я начала изучать Spark, и в какой-то момент столкнулась с проблемой сохранения вычислений Structured Streaming в базе данных Cassandra. Я надеюсь, что пост будет полезен тем, кто недавно начал работать со Spark Structured Streaming и задается вопросом, как выгружать результаты вычислений в базу данных. В данном посте я привожу простой пример создания и использования Cassandra Sink для ...

Читать далее »

Как поступить на PhD программу по машинному обучению

1. Введение Я постарался собрать в этом гайде свои просчеты (учиться лучше на чужих ошибках) и более-менее универсальные вещи, полезные всем. Этот текст — небольшое обобщение моего опыта подачи заявок на Computer Science PhD с уклоном в machine learning в Северной Америке. Например, в случае выбора вузов/научных руководителей или в написании statement of purpose. Но все равно нужно понимать, что ...

Читать далее »

Детские приложения массово собирают персональные данные и передают их третьим лицам

Тут и безопасность, надежность, простота, возможность удаленного управления, если мы говорим о детских устройствах и сервисах, и много чего еще. К детской продукции всегда выдвигались особые требования. Функция «родительских контроль» почти так же стара, как и весь цифровой мир, кроме этого вопрос защиты персональных данных детей стоит остро уже достаточно давно. В последнем исследовании говорится, что огромная масса детских приложений ...

Читать далее »

Анализ тональности текстов с помощью сверточных нейронных сетей

Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Представьте, что у вас есть абзац текста. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Можно. CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки тестов. Есть много способов решать такую задачу, и один ...

Читать далее »

Особенности использования Druid на примере Одноклассников

Хочу рассказать о том, как 50-терабайтную аналитическую систему реального времени, в которой ежедневно журналируются миллиарды событий, мы переносили с Microsoft SQL на колоночную базу под названием Druid. Меня зовут Юрий Невиницин, и я занимаюсь системой внутренней статистики в «ОК». И заодно вы узнаете несколько рецептов использования Druid’а. Зачем нам статистика? Мы хотим знать всё про свой сайт, поэтому журналируем не ...

Читать далее »

[Перевод] Насколько данные для обучения модели (не)похожи на тестовую выборку?

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна. Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». И как будете это делать? Сможете работать с данными? В реальных кейсах такая ситуация встречается повсеместно. При разработке моделей ...

Читать далее »

Пара мыслей об особенностях Российского Data Science

Люди внимательно слушали, задавали вопросы, благодарили. Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Об этом под катом. Но то что произошло потом было очень показательно. А потом был доклад про новые Российские наработки по НЛП с вот этим вот слайдом. Человека, чьи персональные данные данные и врачебная тайна были так ...

Читать далее »