Главная » Хабрахабр » Анализ трендов российского YouTube за 2018 год

Анализ трендов российского YouTube за 2018 год

Старожилы, наверное, и не вспомнят, но в конце 2017-го года в обсуждениях в интернете была распространена мысль о том, что в трендах YouTube часто встречаются «накрученные» видео.

Для каждого видео запрашивается название, список тегов, дата создания, а так же ведется история изменений лаков/дизлайков/просмотров. Поэтому накануне нового 2018-го года я написал утилиту для сбора информации о видео, которые попали в тренды. Разработку вел на TypeScript для NodeJS, сам код выложен на GitHub.

Как итог, сейчас есть возможность строить красивые графики:
График изменения количества лайков и дизлайков

Всего за 2018-й год была собрана информация по 29271 видео. Так же есть возможность строить графики изменения трендов по ключевым словам. Сбор статистики ведется и сейчас.

Общий принцип работы

  1. Раз в 5 минут берется актуальный список трендов.
  2. Для каждого нового видео сохраняется основная информация (название, список тегов, дата создания)
  3. На основании названия и тегов каждому видео ставится в соответствие облако ключевых слов.
  4. По расписанию запрашивается информация о лайках/дизлайках/просмотрах по каждому из видео. Статистика собирается в течение двух дней, первое время запросы идут с интервалом раз в 2 минуты, далее интервал увеличивается. Если есть подозрение на накрутку, то интервал опять устанавливается в 2 минуты.

Это сделано для уменьшения объема БД. Если график изменения количества лайков/дизлайков на каком-то из участков представляет собой прямую линию, то сохраняются только первое и последнее значение на этом участке. Сейчас в таблице со статистикой всего 6908449 записей, на диске таблица занимает 458 мб.

Принцип работы автоматического определения накруток

Ступеньки у этой самой лесенки определяются на основе трех соседних замеров статистики. Для себя задачу сформулировал следующим образом: нужно отмечать видео, у которых на графике изменения лайков/дизлайков есть «лесенка». Так же отмечаются графики, у которых есть много мелких неровностей. Учитывается угол между двумя прямыми: одна прямая проводится между первым и вторым замером, вторая — между вторым и третьим, а так же длины отрезков.

Пример подозрительного графика:

Пример подозрительного графика

Поэтому серьезно относиться к таким результатам для каждого отдельного видео, наверное, не стоит. Все параметры алгоритма определялись мной вручную и проверялись на уже собранных на тот момент видео и в течение года в этот алгоритм вносились изменения. В свое оправдание могу сказать, что при изменении параметров запускался пересчет для всех уже собранных видео, поэтому ко всем видео применялся один и тот же алгоритм.

Любые подозрительные перепады можно объяснить работой CQRS или вспышками на Солнце. В целом, нельзя по одному (или нескольким) графикам изменения лайков/дизлайков сказать, была ли накрутка. Именно поэтому для составления общей картины собиралась информация со всех видео которые попали в тренды. Да, один график плавный, другой ступенчатый, но, возможно у всех видео время от времени случайным образом встречается подобное поведение?

Статистика по нактруткам

32% от общего числа видео)
Подозрение на накрутку дизлайков: 1303 видео (4. За 2018-й год алгоритм показал следующие результаты:
Подозрение на накрутку лайков: 180 видео (0. 45% от общего числа видео)

Однако уже в феврале таких видео стало гораздо меньше, всего 8. Видео с подозрительными графиками лайков немного, однако так было не всегда: в первый месяц 2018-го года зарегистрировано 96 таких видео (более 50% от всех подозрительных по лайкам за год).

Со своей стороны могу сказать, что среди заблокированных были и и те, по которым моя утилита успела собрать информацию. Здесь, наверное стоит опять обратиться к старожилам, которые могут вспомнить (или не вспомнить) событие, которое произошло 10 января 2018-го года, когда YouTube заблокировал множество каналов. График по одному из удаленных видео:

image

С другой стороны такой перепад в накрутках можно объяснить тем, что, в отличии от дизлайков, не имеет смысла накручивать лайки у видео, которые уже попали в тренды. Если предположить, что накрутки действительно были, то складывается впечатление, что в YouTube провели большую работу и сейчас встретить в трендах подозрительное по лайкам видео можно далеко не каждый день (а те что встречаются, чаще выглядят как случайность или ошибка).

В среднем, попавшие в тренды видео набирают 21479 лайков и 2863 дизлака.
Подозрение на накрутку лайков: 15502 / 4250
Подозрение на накрутку дизлайков: 16868 / 22087
Таким образом, если смотреть по результату, то от накрутки лайков пользы нет никакой, в то время как повысить процент дизлайков вполне возможно. И еще немного статистики.

Например на канале Евгения Ройзмана из 21 попавших в тренды видео более половины отмечаются алгоритмом как накрученные по дизлайкам. Подозрительные по дизлайкам графики встречаются неравномерно.

Если предположить, что есть набор аккаунтов в размере 5-10 тысяч, которым сначала дали команду ставить дизлайки, а затем не дожидаясь окончания работы на том же наборе дали команду ставить лайки, то, наверное, можно получить похожий график. По поводу графика из заголовка этой статьи.

Самый странный график, который мне встречался:

К слову, можно заметить, что по этому графику статистика собиралась почти неделю, а не два дня.
image
Буду благодарен, если кто предложит объяснение, какого лешего тут происходит.

Принцип работы алгоритма измерения популярности ключевых слов

Далее название и каждый из тегов разбивается на отдельные слова, они прогоняются через стеммер и сохраняются как облако ключевых слов для видео. Как уже сказал, по каждому видео сохраняется название и набор тегов.

В настоящий момент график изменения тредов ключевых слов строиться по суткам. Имея на руках информацию о том, когда видео попало в тренды и когда из трендов вышло, а так же наборы слов для видео, можно по каждому из ключевых слов составить график изменения популярности. В качестве меры используется общее время (в часах), которое все видео с данным ключевым словом находились в трендах.

Одно видео продержалось 5 часов в трендах, другое — 10 часов. Пример: в трендах было только два видео, соответствующие ключевому слову. Тогда популярность ключевого слова устанавливается равной 10 + 5 = 15.

Примеры графиков популярности по ключевым словам

По тому алгоритму, который писал выше, самым резонансным и наиболее заметным событием 2018-го года стало не выборы и даже не футбол, а трагедия в Кемерово:

график трендов: Кемерово, выборы, футбол

В отличие от всех остальных событий, трагедия в Кемерово повлияла на всех, и видео по данному происшествию вытеснили из трендов все остальные.

Ну и немного политики:

image

Как пощупать

Посмотреть графики и поиграться с тредами можно здесь.

Сейчас система работает на Amazon Cloud, используются две инстанции:

  • t2.micro — веб сервер
  • t3.small — сервер с MySQL. На этом же сервере выполняются утилиты для сбора статистики.

Возможно, в случае нагрузки первым упадет веб сервер, при этом второй сервер продолжит собирать статистику. Это я к тому, что не нужно удивляться, если все перестанет работать.

01. Саму базу по состоянию на 23. 2019 можно скачать по ссылке.

Сейчас единственная польза: прямо на списке тредов YouTube можно увидеть количество лайков/дизлайков для каждого видео.
Так же в свое время написал два плагина для chrome и filrefox.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Дата-центры на выбор: Лондон, Москва, Цюрих, Санкт-Петербург

Отчасти санкции, отчасти рост технологического бизнеса, отчасти рост дохода этого самого бизнеса сформировали в России условия для развития коммерческих ЦОД. Если раньше можно было горько усмехнуться над SLA, ждать пока встанет интернет-магазин на лежащем сервере, фактически доверять провайдеру «в тёмную», ...

Подборка: 4 полезных сервиса для потенциальных иммигрантов в США, Европу и другие страны

Я решил собрать в одном месте список онлайн-сервисов, которые будут полезны тем, кто всерьез задумался об иммиграции. Тема переезда в Европу, США или другие приятные регионы мира довольно часто поднимается на Хабре. Для статьи я отобрал четыре проекта. На удивление, ...