Data Mining

  • Хабрахабр

    Как посчитать «похожесть» номеров в паспортах. И найти одинаковые даже с опечатками

    Очевиднейший способ найти одинаковые клиентские карточки — сравнить паспорта или другие документы, удостоверяющие личность. Продукты HFLabs ищут дублированных клиентов в базах федеральных компаний. На ручной разбор из-за опечатки в номере уходили даже те карточки, у которых совпадали ФИО и адреса́ проживания. Раньше мы сравнивали номера документов строго: одинаковые — отлично, нет — извините. Такой подход излишне нагружал персонал заказчиков. Рассказываю, как работает алгоритм. Поэтому мы с головой залезли…

    Подробнее »
  • Хабрахабр

    [Перевод] Что принёс нам Pandas 1.0

    0. 9 января состоялся релиз Pandas 1. Предыдущая версия библиотеки — 0. 0rc. 25. Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации. Все изменения можно посмотреть здесь, в статье же мы ограничимся небольшим, менее техническим обзором самого главного. 0 всё ещё release candidate,…

    Подробнее »
  • Хабрахабр

    Граф сообщества «Что? Где? Когда?» (ЧГК) или сколько рукопожатий до Друзя?

    Привет, Хабр! Ковыряясь на сайте рейтинга спортивного ЧГК, я обнаружил отличный API, позволяющий получить данные о всех играх всех турниров. Новогодние праздники — отличное время, чтобы отдохнуть от IT использовать профессиональные навыки в любимом хобби. Под катом картинки графов и бесполезная статистика. Так у меня появилась идея построить граф сообщества знатоков и проверить теорию шести рукопожатий на географически разбросанном и…

    Подробнее »
  • Хабрахабр

    Генеалогические исследования — метрические книги, переписи, архивы, открытые базы

    Не один год я увлекаюсь генеалогией. Практической пользы в этом хобби нет, но интересного очень много. Здесь я хотел поделиться накопленным опытом, частью интересных сведений, не сильно погружаясь в персональные истории. Чтобы текст сильно не распухал, расскажу всего 2 кейса: поиск в военных архивах на основе данных онлайн-баз и продолжительный просмотр и анализ метрических книг одного села периода конца XIX…

    Подробнее »
  • Хабрахабр

    Обзор Kaggle ML & DS Survey 2019. Или сколько зарабатывают ML специалисты

    Ежегодно Kaggle проводит опрос среди специалистов по анализу данных, и объявляет конкурс на поиск инсайтов из полученных данных. В этом году в опросе участвовало 19717 человек со всего мира. В статье рассматриваются лучшие обзоры и решения Kaggle ML & DS Survey 2019. Распределение опрошенных специалистов по странам. Рисунок 1. Как видно из инфографики, больше всего специалистов в США и Индии.Data…

    Подробнее »
  • Хабрахабр

    [Перевод] Я потратил $40 тыс. и запорол отличную идею для стартапа

    Из хорошей идеи не всегда выходит бизнес Голова буквально раскалывается. Вы стоите в аптеке, массируете виски и ищете на витрине что-нибудь — что угодно — лишь бы прекратить эту адскую боль. Тайленол? Что же взять? Напроксен? Адвил? Но если вы достаточно щепетильны, то спрóсите у Google о лучшем обезболивающем без рецепта (OTC). Полагаю, большинство схватит что-то подешевле или что попадётся под руку,…

    Подробнее »
  • Дайджест

    Дайджест новостей машинного обучения и искусственного интеллекта за ноябрь

    Привет, Хабр! Отфильтровав для вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за ноябрь. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие новости. Для тех, кто не читал дайджест за октябрь, можете прочесть его здесь. Итак, а теперь дайджест за ноябрь: 1. MIT…

    Подробнее »
  • Хабрахабр

    [Из песочницы] Расстояние Левенштейна и поиск контролёров

    Наверное, в каждом городе Беларуси, где есть троллейбусы, существуют группы ВК или чаты в Telegram, в которых люди отслеживают местоположение контролёров. В основном это делается для того, чтобы не оплатить проезд и проехать бесплатно, хотя в описании групп почти всегда есть постскриптум “Платите за проезд”.В ВК это всё обычно выглядит вот так: Типичный комментарий выглядит вот так: В комментарии есть…

    Подробнее »
  • Хабрахабр

    Визуализация и анализ структуры сообществ с помощью графов

    Графы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями. В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше,…

    Подробнее »
  • Хабрахабр

    Визуализация и анализ структуры сообществ с помощью графов

    Графы — классный инструмент для визуализации больших объемов данных и связей между отдельными элементами. Мы использовали его для оценки связанности наших сообществ и понимания взаимодействия между разными группами и тематическими направлениями. В итоге мы нашли людей-суперконнекторов, узнали, чем отличаются сообщества в разных городах России, а также выяснили, что предпринимателей среди тех, кому за 50, в два с половиной раза больше,…

    Подробнее »


Кнопка «Наверх»
Закрыть