Хабрахабр

Как не врать с помощью статистики: основы визуализации данных

Возможно, где-то так и происходит, но в геймдеве всё наоборот. Не раз слышал мнение, что задача аналитиков — показать откровенно «грустные» цифры таким образом, будто всё идет по плану. И сделать так, чтобы эти данные были поняты. Нам надо представить максимально объективные данные, чтобы в проекте принимались правильные решения.

Часто это сложнее, чем привирать с помощью красивых графиков.

Пригодится, если вы пишете отчеты, готовитесь к презентации или просто хотите донести смысл каких-то цифр. Поэтому я собрал несколько базовых принципов визуализации, которые применяю в работе (список источников в конце). Поехали. Главное: чтобы сделать хороший график, не нужно быть талантливым художником или виртуозно владеть matplotlib/ggplot2.

Почему для хорошего графика достаточно обычного Excel (а иногда карандаша и бумаги)?

Поэтому сразу: не бывает «красивых» или «правильных» графиков — либо они помогают донести идею, либо нет. Это вытекает из единственной цели визуализации — донести вашу идею. И если нет, то каким бы красивым ни был график — он не нужен.

Процесс создания графика, который будет достигать своей цели, можно условно поделить на 4 шага [1]:

Что вы хотите, чтобы читатели или зрители поняли? Все начинается с идеи. Исходя из этого, выбирается тип диаграмм, потом к важным местам привлекается внимание и, убирается все, что мешает донести мысль.

Теперь подробнее по каждому пункту.

Идея

Начнем с формулирования идеи и того, как это влияет на графики. Посмотрите на каноничный пример: табличку «Объем продаж по регионам» с очень простым набором данных (8 цифр, 2 компании) [2].

В таком виде она сложна для восприятия и никакая идея из нее напрямую не следует:

И в зависимости от выбранного типа графика на первый план выйдет совершенно разная мысль. Чтобы показать важные связи проще и нагляднее — нам понадобится диаграмма.

Чтобы считать любую другую информацию, придется разбираться глубже, а это никак не помогает донести мысль. Например, единственное, что мы можем считать при первом взгляде на график выше — то, что структура продаж у двух компаний различна.

Другой график, те же данные:

Если читать его слева направо (так будет делать большая часть людей), то мысль будет следующей: у компании Б (слева) наименьшая доля продаж на юге, а у компании А (справа) — наибольшая. Здесь, помимо разницы в структуре, мы уже показываем, как у компаний соотносятся доли продаж в разных регионах. И наоборот на севере.

Еще график:

Если мы используем гистограмму этого вида, то внимание, в первую очередь, будет привлечено к сравнению компаний между собой: по доле выручки на севере компания Б опережает компанию А, на востоке и западе они конкурируют, а на юге компания Б отстает от компании А.

Одни и те же данные, всего 8 цифр, но в зависимости от подачи, они выражают разные идеи.

Поэтому — сначала формулируем мысль, а потом выбираем подходящий тип диаграммы.

Типы диаграмм

Пройдемся по самым часто встречающимся видам диаграмм (которые вы можете найти в Excel, любом BI или других аналитических инструментах) и посмотрим, для какого типа сравнений (и каких идей) их лучше всего использовать [2].

Pie Chart

В классической трактовке ее основная цель — сравнение долей при показе статичной структуры. Начнем с «любимой» круговой диаграммы и вариациях (кольцевые диаграммы).


Составляющие хорошей игры

Но также есть мнение, что главная цель этой диаграммы — реклама и красивые картинки.

Нет? Во многом именно Pie Charts уже который год позволяют бизнес-консультантам продавать 30-страничные презентации за несколько миллионов. Вот первые картинки по запросам «консалтинг», «аналитика», «BI»:


Pie Charts, они везде

Это уже не столько инструмент, сколько символ. Практически ни одно рекламное изображение не обходится без круговых диаграмм (или их разновидностей).

И для реальной визуализации данных он плохо подходит.

Статичную структуру нужно показывать не так часто — маленькое количество кейсов. Во-первых, область применения этой диаграммы очень узкая. И в-третьих, такой же тип сравнения можно выразить другими диаграммами и будет только лучше. А во-вторых, многие люди плохо считывают доли в круговых диаграммах, особенно, если кто-то делает их объемными (сумасшествие).

Ну, если вы делаете рекламу или хотите добавить солидности вашей презентации, то вариант не такой уж и плохой. Поэтому — лучше забыть о круговых диаграммах.

Bar Chart (horizontal)

Она наглядно показывает, какая из альтернатив лучше, кто какое место занимает и как они соотносятся по рангу. Она же — линейчатая диаграмма и служит для позиционного сравнения.


Позиционное сравнение

И что очень удобно — в легенду легко помещаются длинные названия. Линейчатая диаграмма идеально подходит для рейтингов. В других видах графиков это может мешать.

Line Chart

Line Chart в русском часто называют просто «графиком». Следующий тип — классика.

Он используется для временного сравнения, когда нужно отобразить, как показатель менялся с течением времени, отличалась ли динамика для разных показателей и так далее.


Сравнение динамики показателей

На что обращать внимание при создании Line Chart:

  1. Адекватность временного периода. Иначе диаграмма превратится в нечитаемую кашу.
  2. Количество линий. Больше пяти-семи линий — табу, никто не будет в них разбираться.

    Слева слишком большой временной период, справа — «лапша» из линий
  3. Масштаб. Осторожнее, Line Chart любят те, кто собирается приврать с помощью данных [3].

    Классика лжи — игры с масштабом

    На самом деле все не так плохо: справа тот же график, но с разумным масштабом, становится ясно, что «падение» показателя — просто флуктуация. Например, если график слева показать на презентации совета директоров и назвать ретеншеном — проект, наверное, закроют. В обратную сторону это тоже работает, увеличив масштаб, можно скрыть очевидное ухудшение показателя.

В итоге, Line Chart очень полезный тип диаграмм. Особенно в геймдеве, где необходимо на постоянной основе мониторить показатели, показывать изменения в динамике и следить за развитием проектов.

Area Chart

На что здесь нужно обращать внимание? Следующий тип, Area Chart, служит для показа структуры в динамике. Убирайте лишние слои и оставляйте только самое важное (как это сделать, еще поговорим чуть дальше): Опять же — если делаем обилие слоев, то график становится нечитаемым.

Histogram

У этого типа диаграмм множество вариаций, которые могут использоваться в самых разных ситуациях: Гистограммы — это «универсальный молоток».

  1. временное сравнение;
  2. распределение частот;
  3. сравнение долей (привет круговым диаграммам);
  4. вклад в общую динамику;
  5. сравнение альтернатив и многое другое.

В противном случае график становится нечитаемым и перестает выполнять свою задачу. За эту универсальность гистограмма платит ограничением — на ней можно отобразить лишь небольшое количество периодов или сравнений.

Достаточно изучить эти три инструмента и соблюдать те самые 4 шага, чтобы делать отличные диаграммы, которые помогут доносить ваши мысли до аудитории. Промежуточный итог: гистограммы, Area Chart и Line Chart могут закрыть 90% потребностей в визуализации данных.

Scatter Chart

Преимущество данного типа в том, что он вмещает в себя много показателей. На десерт рассмотрим точечные диаграммы или «карту». Но чем больше запихать измерений, тем сложнее она будет читаться. В нем есть две оси, размер точки, цвет и символ — все это потенциально может отображать дополнительное измерение. В печатных документах, когда люди могут посидеть и разобраться, это допустимо, но при выступлении лучше использовать не более 2-3 измерений.


Доступные параметры: положение точки, цвет, размер и символ

Акценты и управление вниманием

Сформулированная идея и правильно выбранный тип диаграммы — половина успеха. Но кроме этого, мы хотим, чтобы читатель или зритель сразу смотрел в нужное место. Как расставить акценты?

Стрелка

Дешево и сердито, но полностью выполняет свою задачу. Простейший способ, которым часто пренебрегают — стрелка. С ней всегда можно обратить внимание зрителя на нужный элемент графика. Почти любой инструмент для создания скриншотов умеет ставить стрелку.

Рамка

Его используют, когда рассказывают про какой-то временной период и хотят выделить динамику показателя. Другой вариант из «дешевых» — выделение рамкой.

Хорошим примером будет график из начала статьи, когда я говорил про игры с масштабом — можно рассказать как о маленьких изменениях, так и о картине в целом.

Разделители

Они полезны, когда мы хотим выделить периоды «до/после» при показе динамики. По сути, линии-разделители — это вариация выделения рамкой. Или, например, «коридор» интересных значений на точечной диаграмме.

Цвет

Зато оно выглядит «опрятнее». Чуть больших усилий требует цветовое выделение.


Динамика показателей в конкретный период

Еще одна вариация цветового выделения — когда мы выделяем интересующие нас части графика более ярким оттенком:

Убираем лишнее

Последний шаг — убрать лишние элементы. Всё, что будет отвлекать и мешать донести основную мысль.

В этом типе убираем ненужные слои. Вернемся к примеру с Area Chart. Если нужно выделить, что доходы показывают прирост только по одной категории, то все прочие слои можно скрыть.


Схлопываем слои

Вместо того, чтобы заставлять зрителя соотносить высоту столбцов и шкалу, мы можем указать цифры на каждом столбце отдельно и убрать ненужные уже линии. Многие аналитические инструменты по умолчанию делают графики с линиями и шкалу. Будет выглядеть опрятнее.

Если речь о миллионах, то сотни и десятки точно не нужны. Всегда сокращайте единицы измерения и округляйте до значимых цифр. Во-первых, это будет меньше отвлекать зрителя, а во-вторых, будет проще уместить цифры на графике.

Зачем перегружать презентацию или отчет бесполезным балластом? Ну и наконец, если вдруг получившийся график все еще не помогает вам донести мысль — то уберите его совсем.

Источники

Пока что получилось кратко пройтись по самым базовым принципам, но тема визуализации данных намного шире. Если она заинтересовала, то рекомендую ознакомиться с источниками, без которых этой статьи не было бы:

Книга еще в процессе, главы постепенно выкладываются автором на сайте, но то что есть, уже очень полезно. [1] Александр Богачев, «Графики, которые убеждают всех».

Классик визуализации данных, который написал эту книгу тогда, когда графики еще рисовались от руки и надо было сразу думать, как сделать ее правильно. [2] Джин Желязны, «Говори на языке диаграмм».

Не менее классический труд про манипуляцию данными. [3] Даррел Хафф, «Как врать с помощью статистики».

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть