Главная » Архив меток: data science

Архив меток: data science

[Перевод] Насколько данные для обучения модели (не)похожи на тестовую выборку?

Рассмотрим один из сценариев, при котором ваша модель машинного обучения может быть бесполезна. Но что делать, если нужно сравнить один набор яблок с апельсинами с другим, но распределения фруктов в двух наборах разное? Есть такая поговорка: «Не сравнивайте яблоки с апельсинами». И как будете это делать? Сможете работать с данными? В реальных кейсах такая ситуация встречается повсеместно. При разработке моделей ...

Читать далее »

Пара мыслей об особенностях Российского Data Science

Люди внимательно слушали, задавали вопросы, благодарили. Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Об этом под катом. Но то что произошло потом было очень показательно. А потом был доклад про новые Российские наработки по НЛП с вот этим вот слайдом. Человека, чьи персональные данные данные и врачебная тайна были так ...

Читать далее »

Деньги на ветер: почему ваш антифишинг не детектирует фишинговые сайты и как Data Science заставит его работать?

За примерами далеко ходить не нужно. В последнее время фишинг является наиболее простым и популярным у киберпреступников способом кражи денег или информации. Средний ущерб от такой атаки — от 1,5 млн рублей, не говоря уже про репутационный ущерб, который понесли компании. В прошлом году ведущие российские предприятия столкнулись с беспрецедентной по масштабу атакой — злоумышленники массово регистрировали фейковые ресурсы, точные ...

Читать далее »

[Перевод] Поддержка Python в Power BI

Мы рады сообщить, что Python, язык программирования, широко используемый статистиками, учеными и аналитиками, теперь интегрирован в наш open-source Power BI Desktop. После включения функции в настройках вы cможете использовать Python для очистки, анализа и визуализации данных. Подробнее под катом! Вы можете это сделать в диалоговом окне «Получить данные». Первой интеграционной фичей, которую мы добавили, является возможность запуска скриптов Python непосредственно ...

Читать далее »

Moscow Data Science Major: анонс и регистрация

Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science Major. 1 сентября Mail. Событие состоит из пяти тематических блоков докладов, одной ML-тренировки и целого зала для нетворкинга и знакомств. Вход на событие бесплатный, по одобренной регистрации.Доклады на Moscow Data Science Major пройдут в два потока. Знакомьтесь с программой и регистрируйтесь! В таблице вы найдете сетку с ...

Читать далее »

Личный опыт: Data Engineering на Upwork

Я много лет работал Data Engineer'ом и Data Scientist'ом, решал сложные бизнес-кейсы, строил большие системы, выводил это все в продакшен. В начале 2017го я бросил пить, курить и работать в офисе и ушел фрилансить, экспериментировать с альтернативными формами занятости. Довольно много времени я провел на Upwork. Судя по многочисленным комментариям, уважаемая аудитория не до конца представляет себе, что это такое. ...

Читать далее »

Зов Даты, или Как прошел второй хакатон Почты Mail.Ru

14-15 июля Почта Mail.Ru провела свой второй хакатон SmartMail Hack 2: Call of Data. Участникам нужно было разработать новое, интересное и полезное решение для представления данных из Почты. И по горячим следам спешим рассказать о победивших на хакатоне проектах. Как проходил хакатон Напомним вводную: Но, на самом деле, Почта — это огромное хранилище личных данных. «Мы все привыкли, что Почта ...

Читать далее »

[Из песочницы] Модели Эло и ЭлоБета в снукере

В нем есть всё: гипнотизирующая красота интеллектуальной игры, элегантность ударов киём и психологическая напряжённость соревнования. На протяжении многих лет я слежу за снукером, как за спортом. Но есть одна вещь, которая мне не нравится — его рейтинговая система. Такого недостатка лишена модель Эло, которая следит за "силой" игроков и обновляет её в зависимости от результатов матчей и "силы" соперника. Её ...

Читать далее »

Второй блин: анонс SmartData 2018

При подготовке первой нет ни возможности «сделать как раньше», ни зрительского фидбэка, и организаторам приходится делать смелые предположения. Чем первое проведение конференции отличается от второго? Но это значит, что после первого раза непременно появятся новые соображения, которые помогут во второй. Это не значит, что получится плохо. В прошлом году мы впервые провели конференцию SmartData, а теперь пришло время «второго раза»: ...

Читать далее »

Конструктивные элементы надежного enterprise R приложения

Естественно, что методы удобные для консольного пошагового применения человеком, который глубоко в теме, оказываются малопригодными для создания приложения для конечного пользователя. Тем, кто работает с R, хорошо известно, что изначально язык разрабатывался как инструмент для интерактивной работы. (говорим R, подразумеваем, в основном, Shiny web приложения).Однако, не все так плохо. Возможность получить развернутую диагностику сразу по факту ошибки, проглядеть все переменные ...

Читать далее »