Хабрахабр

«Матрица дружбы». Самый старый социальный граф для самых маленьких

Я смотрел, что бы такого можно было быстро и красиво порисовать в GePhi, и наткнулся на историю Йоханнеса Делича (Johannes Delitsch). Тут случилось первое сентября, очередной учебный год, цветы-конфеты, слёзы счастья и вот это вот всё, а я в процессе подготовки к лекции в институте наткнулся на очень любопытные данные. И это, по ходу, один из первых задокументированных социальных графов. Делич работал в Лейпциге учителем начальных классов и собрал в 1880 учебном году данные о том, кто с кем дружит в его классе.

Йоханнес Делич

Так что в начале нового учебного года, увидев свой обширный четвёртый "А" (я, честно говоря, не знаю, какая там была буква, да это не так и важно), Йоханнес немного взгрустнул. Классы тогда были большие (в этом конкретном было аж 53 ученика), а старина Йоханнес, как я понял, до 1880 года подрабатывал исключительно репетиторством. Человеком он, судя по всему, был деятельным и решил лучше разобраться в социальных отношениях вверенной ему оравы.

Данные

Он был школьным учителем, поэтому методология сбора данных у него была довольно, кхм, эклектичная. Йоханнес не был современным социологом. В итоге получился довольно развесистый набор данных на основании которого Делич написал статью в Zeitschrift für. Он и беседовал с учениками, и их домашние задания читал, и "наблюдал, как они общаются в группе".

Йоханнеса, как я понял, в первую очередь интересовало то, как связаны успеваемость ребёнка и его популярность среди одноклассников, поэтому помимо направленного графа, описывающего кто с кем дружит, Делич также приводит рейтинг ученика (от самого успешного, до самого неуспевающего) и ещё некоторые интересные параметры. Kinderforschung (любые слова на немецком звучат и пишутся очень страшно, заранее извините, но дословный перевод "Журнал для исследования детей" звучит на русском ещё криповее). Ещё в классе был парень по фамилии Лаш (Lasch), бабушка которого была кондитером. К примеру, в классе было четыре второгодника, они выделены в датасете. Он также отдельно выделил детей у которых были проблемы со здоровьем, такие как анемия, хромота или задержка в развитии. Делич обратил внимание, что Лаш угощает других детей конфетами и отметил это в своих данных.

Граф направленный, потому что Ганс может считать Фридриха другом, а Фридрих, может, на Ганса чихать хотел. Матрица дружбы
"Матрица дружбы" описывает кто и с кем дружит.

Лучшие люди нашего класса

Давайте засунем этот социальный граф в GePhi, посчитаем, к примеру, PageRank и покрасим вершины.

PageRankedGraph
Более "влиятельные" ученики окрашены в более насыщенный цвет.

Вот, что получится, если выделить семь вершин графа, у которых самый высокий PageRank. Давайте "подсветим" семь учеников с самым высоким PageRank (я позже объясню, почему именно семь, пока давайте просто считать семь фундаментальной константой).

7
Лидеры мнений четвёртого "А" в 1880 году.

Во-первых, все четыре второгодника "в топе". Про этих парней мы уже говорили! У него седьмое значение PageRank. Я решил выделить семь человек, потому что один из четырёх второгодников по фамилии Шнабель (Schnabel) какой-то не очень крутой. Шнабель всего седьмой. В то время как второгодники Пфайль (Pheil) и Феттер (Vetter) уверенно (и с большим отрывом) занимают первую и вторую строчку в списке "авторитетности", а второгодник Шуберт — четвёртую, уступая по "авторитетности" только Лашу (мало что может конкурировать с раздачей конфет). Про этого Майнхольда мы ничего не знаем, никакой особой информации о нём Делич нам не оставил, поэтому его на картинке обозначим как "странного парня". Выше его по авторитетности лучший ученик в классе Шлегель (Schlegel) и пятый по успеваемости ученик Майнхольд (Meinhold).

Удары в бубен и вычисление modularity class

Описан алгоритм тут, а реализация, используемая GePhi тут. В GePhi есть инструмент чтобы найти в нашем четвёртом "А" группы "по интересам". За несколько проходов алгоритм может давать разную разбивку на сообщества, поэтому всё, что будет дальше, это просто камлание и удары в бубен на основании отдельно взятого результата, что не делает процесс менее забавным. Общая идея в том, что алгоритм пытается оценить, какие сообщества внутри сети более плотные. Итак, вот в такие цвета раскрасил наш четвёртый "А" алгоритм поиска сообществ.

7
Скажи мне, с кем ты дружишь, и я скажу, что ты это зря.

Все наши семь самых влиятельных ребят попали в четыре основные сообщества. Давайте смотреть, что получилось. "Некрутой" второгодник Шнабель и лучший ученик класса Шлегель попали в сообщество, покрашенное в лиловый. Три "крутых" второгодника Пфайль, Феттер и Шуберт попали в сообщество, покрашенное на картинке в зелёный. Майнхольд остаётся человеком-загадкой. Наконец, раздающий конфеты Лаш попал в сообщество, обозначенное на картинке светло-синим. Из четырёх детей, у которых были проблемы со здоровьем, двое вообще ни с кем не дружат, а двое других попали в синее сообщество. Он попал в небольшую группу "избранных", в которой всего три ученика (включая его самого), она покрашена в тёмно-серый.

Многое начинает проясняться. Ну, что ж. Лаш и его конфеты сформировали сообщество ребят, которых ни в ботаны, ни в плохие парни не берут, а Майнхольд… Хммм… Кто же такой Майнхольд? Шнабель, по всей видимости, не такой "крутой" второгодник, потому что вместо того, чтобы зависать с крутыми парнями, общается с какими-то ботанами, с которыми дружит пай-мальчик Шлегель (интересно, что сами Шнабель и Шлегель не дружат, но стабильно попадают в одно сообщества при подсчёте модулярности сети). Ещё два ученика, попавшие с ним в одно сообщество, это Майер (Meier, четвёртое место в рейтинге учеников) и Флаш (Flasch, тридцать пятое место в рейтинге учеников). Давайте посмотрим, кто ещё с ним "в тусовке". Хммм… Три чувака, которые больше толком ни с кем не общаются, но при этом два из которых неплохо учатся...

geeks
Кадр из фильма Superbad.

Двое учатся отлично, а третий особо ни с кем не общается, просто делает после уроков гигантского человекоподобного робота или кригсмарине, или ещё что похуже. Короче, мне нравится думать о трёх этих парнях, как о троице гиков из Германии 19ого века. Не суть.

Сгенерируем что-то похожее на нормальное распределение на интервале от 2 до 5 (у немцев шкала оценок обратная, но мы чисто для своего понимания будем всё делать по нашей привычной шкале, когда 2 — не сдал, а 5 — красавчик). Давайте переведём рейтинг немецких школьников в среднюю оценку. Теперь давайте посмотрим, какая средняя оценка у учеников, в каждой из этих четырёх групп. Сопоставим каждому ученику его средний бал так, чтобы при ранжировании по этому среднему баллу получался бы такой же рейтинг, как в данных Делича. Получится вот что: А заодно, со сколькими людьми в среднем дружит участник каждой группы, и сколько людей в среднем дружат с ним.

Цвета соответствуют раскраске графа. avg
Средняя оценка и средние in- и out- degree по четырём группам.

Хорошисты из тусовки Шлегеля и Шнабеля учатся в среднем похуже гиков, зато в социальном плане у них всё получше. Гики, в целом, неплохо учатся, но сами дружить не рвутся, да и с ними особо никто дружить не собирается. Наконец, плохие парни учатся хуже всех, зато очень популярны (с ними хотят дружить), хотя сами в плане количества людей с которыми дружат недалеко ушли от гиков. Альтруисты (так я называл группу, в которую вошёл раздававший конфеты Лаш) учатся паршиво зато дружат с другими детьми активнее всего (пусть и не взаимно).

Давайте ещё нарисуем с кем дружат представители разных сообществ

s
Каждое сообщество больше всего дружит внутри себя, но с другими сообществами взаимодействует по-разному.

Альтруисты считают своими друзьями немало хорошистов и немало плохих парней. Смотрите, как забавно! Хорошисты, судя по всем, от дружбы с плохими парнями не в восторге, зато альтруисты с их улыбчивыми лицами и халявными конфетами вызывают у них сдержанный интерес. Плохие парни альтруистов особо не жалуют, зато вот некоторых хорошистов считают своими друзьями.

Если вам по каким-то причинам интереснее смотреть с другого бока, то вот ещё одна призовая картинка.

s
Каждое сообщество больше всего дружит внутри себя, но с другими сообществами взаимодействует по-разному.

В 2014 году данные о нашем четвёртом "А" заново открыла миру вот эта статья. Вот такой забавный дата-сет в первую неделю осени. Такие дела. Дело в том, что после первой мировой Германии было не до педагогики, так что о данных, собранных Деличем, забыли надолго, а сейчас выходит, что это чуть ли не первый подробно задокументированный социальный граф.

Über Schülerfreundschaften in einer Volksschule. Оригинальные данные были опубликованы в статье:
Delitsch, J., 1900. Zeitschrift für Kinderforschung 5, 150–162.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть