Главная » Архив меток: анализ данных

Архив меток: анализ данных

Роботизация может вести к диктатуре

Получается, тема живая не только в наших головах. Предыдущая статья на тему замены человека роботом получила большое количество комментариев. Поскольку мы сами вносим вклад в роботизацию как в контексте обучения в нашей Школе, так и в контексте проектов, которые мы делаем, то невольно нам приходится задумываться на предмет того, куда в пределе этот процесс может вести и как избежать сопутствующих ...

Читать далее »

Миграция данных в кровавом энтерпрайзе: что анализировать, чтобы не завалить проект

И не только собрать, а еще очистить от дублей и мусора. Типичный проект системной интеграции для нас выглядит так: у заказчика вагон систем для учета клиентов, задача — собрать клиентские карточки в единую базу. Чтобы на выходе получились чистые, структурированные, полные карточки клиентов. Для начинающих поясню, что миграция идет по такой схеме: источники → преобразование данных (отвечает ETL или шина) → приемник. Самое обидное, что этого можно было избежать.Работали ...

Читать далее »

[Из песочницы] VotingClassifier в sсikit-learn: построение и оптимизация ансамбля моделей классификации

В рамках реализации большой задачи по Sentiment Analysis (анализ отзывов) я решил уделить некоторое время дополнительному изучению её отдельного элемента — использованию VotingClassifier из модуля sklearn.ensemble как инструмента для построения ансамбля моделей классификации и повышению итогового качества предсказаний. Почему это важно и какие есть нюансы? Одним способом решения может быть выбор наиболее популярной и/или интуитивно подходящей модели исходя из характера ...

Читать далее »

Так устроен поиск заимствований в Антиплагиате

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать: как быстро найти абзац текста среди сотен миллионов статей; во что превращается документ после загрузки в систему Антиплагиат, и что ...

Читать далее »

Дайджест Университета ИТМО: новые исследования, опыт выпускников и международные проекты

Сегодня мы представляем вашему вниманию материалы о проектах выпускников и специалистов Университета ИТМО. Темы подборки — Computer Science, городская инфраструктура и карьера в ИТ. Фото Andrés Nieto Porras CC BY-SA Исследование: как препятствия меняют динамику движения толпы Чтобы решить задачу краткосрочного прогнозирования, международная группа ученых, включающая представителей Университета ИТМО, использовала методы мультиагентного моделирования. Предсказательная модель перемещений была построена специально для ...

Читать далее »

Как поступить на PhD программу по машинному обучению

1. Введение Я постарался собрать в этом гайде свои просчеты (учиться лучше на чужих ошибках) и более-менее универсальные вещи, полезные всем. Этот текст — небольшое обобщение моего опыта подачи заявок на Computer Science PhD с уклоном в machine learning в Северной Америке. Например, в случае выбора вузов/научных руководителей или в написании statement of purpose. Но все равно нужно понимать, что ...

Читать далее »

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о пьянках-гулянках-девушках-гитарах будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как ...

Читать далее »

Выявление содержательных профилей в VK

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой велоси... метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни. Если вам в друзья стучится кто-то, а вы с первого взгляда не можете понять это вообще нормальный человек или ...

Читать далее »

[Из песочницы] MongoDB и исследование рынка ИТ-вакансий

Вы когда-нибудь анализировали вакансии? Месяц назад? Задавались вопросом, в каких технологиях наиболее сильна потребность рынка труда на текущий момент? Год назад? Как часто открываются новые вакансии Java-разработчиков в определенном районе Вашего города и как активно они закрываются? Поехали! В этой статье я расскажу Вам, как можно достичь желаемого результата и построить отчетную систему по интересующей нас теме. Источник Выбор пал ...

Читать далее »

«Storytelling with Data», Cole Nussbaumer Knaflic: неформальный обзор-конспект книги

«Наши сайнтисты сгенерировали кучу графиков, а мы совершенно не знаем, куда их девать. Давайте попробуем их хоть как-то пристроить». (с) подслушано В моей работе я постоянно встречаю крайне сомнительные визуализации данных. «Плохие графики везде. Но это происходит. Никто не делает плохие графики намеренно. В каждой компании во всех отраслях экономики сотрудниками всех уровней. Опять и опять. Это происходит там, где ...

Читать далее »