Главная » Архив меток: Data Mining

Архив меток: Data Mining

IGNG — инкрементальный алгоритм растущего нейронного газа

class NeuralGas(): __metaclass__ = ABCMeta def __init__(self, data, surface_graph=None, output_images_dir='images'): self._graph = nx.Graph() self._data = data self._surface_graph = surface_graph # Deviation parameters. self._dev_params = None self._output_images_dir = output_images_dir # Nodes count. self._count = 0 if os.path.isdir(output_images_dir): shutil.rmtree(''.format(output_images_dir)) print("Ouput images will be saved in: {0}".format(output_images_dir)) os.makedirs(output_images_dir) self._start_time = time.time() @abstractmethod def train(self, max_iterations=100, save_step=0): raise NotImplementedError() def number_of_clusters(self): return nx.number_connected_components(self._graph) def ...

Читать далее »

Зимой и летом одним цветом? Поиск сезонности в данных

Всплески интереса к цветам, новогодним подаркам и шинам — вполне ожидаемы. Однажды мы решили посмотреть, какие сезонные интересы есть у пользователей 2ГИС в разных городах. Мы решили ими не ограничиваться и пойти дальше, проверив все сферы деятельности во всех 113 городах присутствия. В этой статье я расскажу, как мы искали сезонности и какие особенности поведения пользователей в них обнаружили. Зачем ...

Читать далее »

Как мы просканировали весь интернет и что мы узнали

Сколько сайтов вы используете ежедневно? Пару социальных сетей, поисковик, несколько любимых издательств, около 5 рабочих сервисов. Пожалуй, вряд ли наберется более 20 сайтов. Но мне всегда было интересно, можно ли пробежаться по всем доменам интернета, не строя аналитику на очень малой выборке. А задумывались ли вы сколько сайтов в интернете и что с ними происходит?Периодически попадаются статьи с исследованиями, построенными ...

Читать далее »

Понедельник начинается в субботу, или что можно узнать о жизни в другой стране из логов sci-hub

Хотите знать, как религия влияет на рабочий день, у кого самый длинный обеденный перерыв, и правда ли что Москва никогда не спит? Но это же Хабр, а не жёлтая газета, так что историю вам поведает самый объективный рассказчик из всех — данные пользовательской активности. Вам когда-нибудь доводилось найти пиратский настоящий клад? Такой что с первого взгляда становится понятно, что вы ...

Читать далее »

Конструктивные элементы надежного enterprise R приложения

Естественно, что методы удобные для консольного пошагового применения человеком, который глубоко в теме, оказываются малопригодными для создания приложения для конечного пользователя. Тем, кто работает с R, хорошо известно, что изначально язык разрабатывался как инструмент для интерактивной работы. (говорим R, подразумеваем, в основном, Shiny web приложения).Однако, не все так плохо. Возможность получить развернутую диагностику сразу по факту ошибки, проглядеть все переменные ...

Читать далее »

[Из песочницы] Исследование рынка вакансий BA/SA

Рисерчер парсил десятки описаний вакансий с hh вручную, раскидывая их по запрашиваемым скиллам и увеличивая счетчик в соответствующей колонке спредшита. "Исследование рынка вакансий аналитиков" — так звучала вполне реальная задача одного вполне реального ведущего аналитика одной ни большой, ни маленькой фирмы. Я увидела в этой задаче неплохое поле для автоматизации и решила попытаться справиться с ней меньшей кровью, легко и ...

Читать далее »

Как создать свой датасет с Киркоровым и Фейсом на Яндекс Толоке

Практически каждый человек знает, что такое машинное обучение, линейная регрессия, random forest. Нейронными сетями уже никого не удивишь. Любой школьник за пару недель теперь может освоить keras и клепать нейроночки. Каждый год тысячи людей проходят курсы по машинному обучению на ODS и Coursera. Но в нейронных сетях, как и во всем машинном обучении, помимо создания хорошего алгоритма, необходимы данные, на ...

Читать далее »

Oh, My Code: Машинное обучение и аналитика в «Одноклассниках»

В чём разница между Machine Learning и анализом данных, кто сидит в «Одноклассниках» и как начать свой путь в машинном обучении — об этом мы беседуем в двенадцатом выпуске ток-шоу для программистов. Видео на канале Технострим Ведущий программы — технический директор медиапроектов Павел Щербинин, гость — инженер-аналитик «Одноклассников» Дмитрий Бугайченко.00:56 Дмитрий Бугайченко: из аутсорса в ОК и научную деятельность02:42 Зачем ...

Читать далее »

Человек машине помощник

Этот блог обычно посвящен распознаванию автомобильных номеров. Но, работая над этой задачей, мы пришли к интересному решению, которое можно с легкостью применять для очень широкого круга задач компьютерного зрения. Об этом сейчас и расскажем: как делать систему распознавания, которая вас не подведет. А если подведет, то ей можно подсказать, где ошибка, переобучить и иметь уже чуть более надежное решение, чем ...

Читать далее »

Битва при MERGE. Хроника с выводами и моралью

Несколько недель перед важным комитфестом — последним перед feature freeze версии PostgreSQL 11 — читатели рассылки hackers, сжимая в левой пакет с чипсами, следили за триллером MERGE. Режиссер триллера, глава компании 2ndQuadrant Саймон Риггс (Simon Riggs), с впечатляющей настойчивостью и изобретательностью пытался протащить в версию патч, реализующий синтаксис команды MERGE. Риггс комитер с 2009 года, а со статусом комитера можно ...

Читать далее »