Главная » Архив меток: анализ данных

Архив меток: анализ данных

[Из песочницы] VotingClassifier в sсikit-learn: построение и оптимизация ансамбля моделей классификации

В рамках реализации большой задачи по Sentiment Analysis (анализ отзывов) я решил уделить некоторое время дополнительному изучению её отдельного элемента — использованию VotingClassifier из модуля sklearn.ensemble как инструмента для построения ансамбля моделей классификации и повышению итогового качества предсказаний. Почему это важно и какие есть нюансы? Одним способом решения может быть выбор наиболее популярной и/или интуитивно подходящей модели исходя из характера ...

Читать далее »

Так устроен поиск заимствований в Антиплагиате

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать: как быстро найти абзац текста среди сотен миллионов статей; во что превращается документ после загрузки в систему Антиплагиат, и что ...

Читать далее »

Дайджест Университета ИТМО: новые исследования, опыт выпускников и международные проекты

Сегодня мы представляем вашему вниманию материалы о проектах выпускников и специалистов Университета ИТМО. Темы подборки — Computer Science, городская инфраструктура и карьера в ИТ. Фото Andrés Nieto Porras CC BY-SA Исследование: как препятствия меняют динамику движения толпы Чтобы решить задачу краткосрочного прогнозирования, международная группа ученых, включающая представителей Университета ИТМО, использовала методы мультиагентного моделирования. Предсказательная модель перемещений была построена специально для ...

Читать далее »

Как поступить на PhD программу по машинному обучению

1. Введение Я постарался собрать в этом гайде свои просчеты (учиться лучше на чужих ошибках) и более-менее универсальные вещи, полезные всем. Этот текст — небольшое обобщение моего опыта подачи заявок на Computer Science PhD с уклоном в machine learning в Северной Америке. Например, в случае выбора вузов/научных руководителей или в написании statement of purpose. Но все равно нужно понимать, что ...

Читать далее »

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о пьянках-гулянках-девушках-гитарах будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как ...

Читать далее »

Выявление содержательных профилей в VK

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни. Если вам в друзья стучится кто-то, а вы с первого взгляда не можете понять это вообще нормальный человек или ...

Читать далее »

[Из песочницы] MongoDB и исследование рынка ИТ-вакансий

Вы когда-нибудь анализировали вакансии? Месяц назад? Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Год назад? Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются? Поехали! В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Источник Выбор пал ...

Читать далее »

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги

«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано В моей работе я постоянно встречаю крайне сомнительные визуализации данных. «Плохие графики везде. Но это происходит. Никто не делает плохие графики намеренно. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Опять и опять. Это происходит там, где ...

Читать далее »

[Перевод] Добро пожаловать в эпоху нигилизма приватности

На Google и Facebook легко свалить вину, но на самом деле компании собирали, продавали и повторно использовали наши личные данные в течение десятилетий, а теперь, когда общественность наконец заметила, уже слишком поздно. Война за приватность давно закончилась, и мы проиграли. Его называют «Врата в ад». Месторождение природного газа в Дервезе (Туркменистан) провалилось в подземную пещеру, создав непрерывно горящий кратер диаметром ...

Читать далее »

[Перевод] Поддержка Python в Power BI

Мы рады сообщить, что Python, язык программирования, широко используемый статистиками, учеными и аналитиками, теперь интегрирован в наш open-source Power BI Desktop. После включения функции в настройках вы cможете использовать Python для очистки, анализа и визуализации данных. Подробнее под катом! Вы можете это сделать в диалоговом окне «Получить данные». Первой интеграционной фичей, которую мы добавили, является возможность запуска скриптов Python непосредственно ...

Читать далее »