Хабрахабр

Город засыпает, просыпаются хабровчане

Если количество комментариев под статьёй стремительным домкратом приближается к 1000, будьте уверены — независимо от заявленной автором темы внутри бушует срач: очаги возгорания политоты, окружённые диванными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и никнейму, переходы на личности, саркастические выпады, едкость которых превышает таковую у крови ксеноморфов, и, конечно же, обязательное в таких случаях блюдо — взаимные обвинения в том, что ваш визави с вами дискутирует исключительно за вознаграждение и\или по долгу службы. Которая, видимо, и опасна и трудна, и на первый взгляд как будто не видна, а тридцать серебренников на дороге не валяются.

Вы ищите тут логику? Самое забавное в такой ситуации это то,что люди, глубоко поражённые синдромом в-интернете-кто-то-неправ, зачастую тратят чёртову прорву времени и нервов чтобы совершенно бесплатно доказать другому такому же поражённому, что уж он-то ровно это же самое делает за деньги или по приказу. Это интернет, детка. Её нет.

С момента публикации статьи прошло 4 дня и, разумеется, обсуждение давным давно съехало от изначально заявленной темы за тридевять земель. Возьмём один из относительно свежих срачей о предполагаемой территориальной дискриминации на Гитлабе. Звучат такие фразы:

Реальный человек не сможет ничего противопоставить профессиональному комментатору на подписке…

Пользователь (такой-то) тратит просто нереальное количество времени на комментарии…
При этом его активность не имеет паттернов которые обычно присущи обычному пользователю

но это навело меня на мысль написать парсер-анализатор таких комментаторов ) С показанием активности по часам, количеством времени в день, в неделю и т.п… Хорошая тема для статье) p.s.

Так, стоп. А какие такие паттерны «обычно присущи обычному пользователю»? Автора этой фразы в той теме, к сожалению, уже транклюкировали, так что придётся идти наугад.

Представьте себе — «по данным хабра-ботометра вы с вероятностью 76% являетесь кремлеботом». Вопрос, который я хочу поставить пред ваши ясны очи, следующий — возможно ли вообще методами статистики хоть сколь-нибудь надёжно выделить эти самые паттерны так, чтобы создать формальный классификатор, отличающий комментаторов казуальных от профессиональных? Тем не менее, за вчерашний вечер я сколхозил «на коленке» небольшой примитивный парсер, который (благо страницы с комментариями открыты даже для неавторизованных посетителей) пока что делает две вещи — а) собирает у заданного юзернейма статистику всех его комментариев (пока что просто time-stamp) и складывает в базу MySQL; б) рисует временную диаграмму, отмечая на ней взятые из этой базы события отправки комментария. Это будет намного круче кармических рейдов друг на друга.
К сожалению, моих компетенций не хватит на то, чтобы даже предположить, в какую сторону копать для решения такой задачи. Вот так выглядит диаграмма моих комментариев. Даже без какого-то мудрёного анализа получилось довольно забавно. Лучше всего её рассматривать в отдельном окне на масштабе в 100% и больше. Пояснения — под ней.

image

Сутки идут снизу вверх вдоль вертикальной оси, цена деления на ней — 365 суток. По горизонтальной оси — время, каждый пиксель равен одной минуте, цена серых делений равна одному часу, вся горизонтальная линия равна одним суткам.

Видно, что я люблю поспать по 7-8 часов, часто ложусь за полночь, и иногда устраиваю многочасовые марафоны комментирования, и что активность за последний год превышает или примерно равна таковой за предыдущие пять лет.
Или вот товарищ gecube три с половиной года хранил обет молчания, а потом как прорвало… Ничего особенно интересного в моей диаграмме нет.

image

Диаграмма активности типичного хабракомментатора выглядит приблизительно таким образом (это QtRoS)

image

Отчётливая «сонная лощина» слева где-то в европейской ночи и неспешное комментирование во время светового дня, возможно с перерывами на пол-года.

Как вам, например, такое: Но не все диаграммы такие скучные!

image

Пешком шёл? За два с небольшим года наш коллега, видимо, переучил свои биоритмы спать с европейской ночи куда-то под Срединно-Атлантический хребет, причём равномерно и постепенно, а потом ещё два года потратил, чтобы вернуться к берегам Португалии. Я не могу придумать правдоподобных объяснений… Первые три часа бодрствования комменты летят как из пулемёта, а под конец дня уже так, раз в часик заглянул, что там делается да и всё. Вплавь?

Это был, кстати, 0xd34df00d.

А вот ещё загадка:

image

Четыре с половиной года коллега продержался без единого комментария — видать тренировался где-то в тайных монастырях, как не спать потом сутками, судя по тому, сколько комментов отправлено в «сонной лощине».

Перекур? Но вот самое тут интересное — это аномалия в 16-м часу, которая длится более трёх лет и в последний год постепенно затухает. Пробежка? Выгуливание собаки? Я раздолбай и лентяй, не могу себе представить подобной самодисциплины, которую может себе позволить уважаемый khim. Что ещё может оторвать хабровчанина от ленты комментариев в разгар рабочего дня с такой ежедневной предопределённостью?

Наконец, последняя диаграмма для подумать:

image

Только еле-еле угадывается видимое превышение количества комментов, отправленных после полудня над отправленными до. На ней вообще нет чётко выраженной «сонной лощины».

Со всей комсомольской строгостью призываю уважаемого MTyrz разоружиться перед партией и честно признаться, сколько бабушек, дедушек, внучек, жучек и мышек рулят вашим аккаунтом и строчат комменты.

Мои собственные познания в дата-майнинге и в методах визуализации данных едва ли превышают общую эрудицию. И под занавес коварный вопрос — может ли кому-то это всё быть интересно настолько, что захочется развить код парсера и\или получить дамп базы или доступ ней и так далее? Если кто-то заинтересовался, пишите мне в телеграм (ник в профиле). Что-то более умное и интересное, чем эти простенькие диаграммки я вряд-ли придумаю.

Спасибо за внимание!

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть