Главная » Хабрахабр » Как погрешность превращается в грех

Как погрешность превращается в грех

Это, разумеется, не так, но если следовать такой логике, то один британский любитель пива "Гиннесс" по имени Уильям Госсет должен был не просто повеситься, но и своим вращением в гробу уже пробурить Землю до самого центра. Одна городская легенда гласит, что создатель сахарных пакетиков-палочек повесился, узнав, что потребители не разламывают их пополам над чашкой, а аккуратно отрывают кончик. А все потому, что его знаковое изобретение, опубликованное под псевдонимом Стьюдент, уже десятки лет используют катастрофически неправильно.

image

Гланц. Рисунок выше приведен из книги С. Пер. Медико-биологическая статистика. — М., Практика, 1998. с англ. Однако и ряд современных статей по теме, и мой собственный опыт говорят о том, что t-критерий Стьюдента остается самым известным, и оттого — самым популярным в применении, по поводу и без. — 459 с. Мне неизвестно, проверял ли кто-нибудь на статистические ошибки расчеты для этой диаграммы.

Большинство людей, хоть раз применявших этот критерий в своей курсовой или даже научной работе, скажут что-то вроде: "ну вот, мы сравнивали 5 злых школьников и 7 школьников-геймеров по уровню агрессии, у нас значение по таблице выходит близко к р=0,05 и это значит, что игры — зло. Причиной этому является поверхностное образование (строгие преподаватели учат, что надо "проверять статистику", иначе уууууу!), простота использования (таблицы и онлайн-калькуляторы доступны во множестве) и банальное нежелание вникать в то, что "и так работает". Сколько логических и методологических ошибок они уже сделали? Ну да, не точно, а с вероятностью 95%".

Основы

Логика берется из теоремы Байеса, математическая основа — из распределения Гаусса, методология базируется на дисперсионном анализе: На чем основан t-критерий Стьюдента?

image

где параметр μ — математическое ожидание (среднее значение) распределения, а параметр σ — среднеквадратическое отклонение (σ ² — дисперсия) распределения.

Представим себе аудиторию Хабра, сортированную по числу людей каждого из определенных возрастов. Что такое дисперсионный анализ? Количество людей по возрасту, скорее всего, будет подчиняться нормальному распределению — согласно функции Гаусса:

image

А что такое стандартное отклонение? Нормальное распределение имеет интересное свойство — почти все его значения лежат в пределе трех стандартных отклонений от среднего значения. Дисперсия, в свою очередь — это квадрат разности всех членов генеральной совокупности и среднего значения, деленный на число этих членов: Это корень из дисперсии.

$ σ_^{2}={\frac {1}{n}}\sum \limits _{{i=1}}^{n}\left(X_{i}-{\bar {X}}\right)^{2} $

Получилась мера средней разбросанности значений относительно среднего — дисперсия. То есть, каждое значение вычли из среднего, возвели в квадрат, чтобы убить минусы, и затем взяли среднее, тупо просуммировав и поделив на число этих значений.

Делая случайную выборку, мы всегда получаем распределения, близкие к нормальным. Представим, что мы отобрали в этой генеральной совокупности две выборки: читателей хаба "Криптовалюты" и читателей хаба "Старое железо". Вот и сейчас у нас получились маленькие распределньица внутри нашей генеральной совокупности:

image

Если эти зеленые линии возвести в квадрат, просуммировать и усреднить — это и будет дисперсия. Для наглядности я показал зеленые линии — расстояния от точек распределения до среднего значения.

Мы можем охарактеризовать генеральную совокупность через эти две маленькие выборки. А теперь — внимание. С другой стороны, средние значения самих выборок — это тоже числа, для которых можно вычислить дисперсию! С одной стороны, дисперсии выборок характеризуют дисперсию всей генеральной совокупности. Итак: у нас есть среднее от дисперсий выборок и дисперсия средних значений выборок.

Тогда мы можем провести дисперсионный анализ, грубо представив его в виде логической формулы:

$F={\frac {дисперсия\:совокупности\:по\:средним\:значениям\:выборок}{дисперсия\:совокупности\:по\:дисперсиям\:выборок}}$

Очень просто. Что нам даст вышеозначенная формула? Так вот, в нашем случае, нулевой гипотезой будет отсутствие значимых различий между возрастным распределением наших пользователей в двух хабах. В статистике все начинается с "нулевой гипотезы", которую можно сформулировать как "нам показалось", "все совпадения случайны" — по смыслу, и "не существует связи между двумя наблюдаемыми событиями" — если строго. В случае нулевой гипотезы наша диаграмма будет выглядеть как-то так:

Это означает, что и дисперсии выборок, и их средние значения очень близки или равны между собой, а потому, говоря очень общо, наш критерий

$F={\frac {дисперсия\:совокупности\:по\:средним\:значениям\:выборок}{дисперсия\:совокупности\:по\:дисперсиям\:выборок}}=1$

Тогда и диаграмма будет выглядеть скорее как на предыдущем рисунке. А вот если дисперсии выборок равны, но возраста хабраюзеров действительно сильно отличаются, то числитель (дисперсия средних значений) будет большим, и F будет намного больше единицы. Ничего, если не обратить внимание на формулировку: нулевой гипотезой будет отсутствие значимых различий. А что нам это даст?

Она обозначается как α и имеет следующий смысл: уровень значимости есть максимальная приемлемая вероятность ошибочно отвергнуть нулевую гипотезу. А вот значимость… ее мы задаем сами. Это и есть пресловутое р<0,05, потому как обычно в медико-биологических исследованиях уровень значимости задают в 5%. Иными словами, мы будем рассматривать наше событие как достоверное отличие одной группы от другой, только если вероятность Р нашей ошибки меньше α.

В зависимости от α существуют критические значения F, начиная с которых мы отвергаем нулевую гипотезу. Ну а дальше — все просто. Это — что касается дисперсионного анализа. Они и выпускаются в виде таблиц, которыми мы так привыкли пользоваться. А что со Стьюдентом?

Так говорил Студент

Я опять не буду перегружать вас формулами, которые легко гуглятся, а передам суть: А критерий Стьюдента — это просто частный случай дисперсионного анализа.

$t={\frac {разность\:средних\:значений\:выборок}{стандартная\:ошибка\:разности\:выборочных\:средних}}$

И соответственно, из каких его неотъемлемых свойств напрямую вытекают ограничения его использования, на которых так часто ошибаются даже профессиональные ученые. Так вот, все это длинное объяснение нужно было, чтобы очень грубо и бегло, но наглядно показать, на чем основан t-критерий.

Свойство первое: нормальность распределения.

image

Какой можно из него сделать вывод? Это — пару лет как гуляющий по Интернету график распределения баллов сдачи польского государственного экзамена. Что преподаватели "дотягивают" учеников? Что этот экзамен не сдают только совсем отбитые гопники? Если у вас однобокий, зубчатый, волнистый, дискретный график распределения — забудьте про t-критерий, его использовать нельзя. Нет, только один — к распределению, отличному от нормального, нельзя применять параметрические критерии анализа, вроде Стьюдента. Тем не менее, это иногда успешно игнорируется даже серьезными научными работами.

Использовать так называемые непараметрические критерии анализа. Что же делать в таком случае? Эти критерии менее точны, чем параметрические, но по крайней мере их использование корректно, в отличие от ничем не оправданного использования параметрического критерия на ненормальной совокупности. В них реализуется другой подход, а именно ранжирование данных, то есть уход от значений каждой из точек к присвоенному ей рангу. Да, он позволяет иметь дело с выборками до 5 точек, но это, как уже должно быть понятно, не основное его назначение. Из таких критериев наиболее известен U-критерий Манна-Уитни, причем зачастую его используют как критерий "для малой выборки".

Значения F-критерия менялись при отличии (увеличенной дисперсии) средних значений выборок. Свойство второе: вы же помните формулу? Поэтому еще одним критерием применимости должно быть равенство дисперсий. А вот знаменатель, то есть, сами дисперсии, меняться не должны. Леонов В.П. О том, что эта проверка соблюдается еще реже, говорится например, тут: Ошибки статистического анализа биомедицинских данных. 2, стр. Международный журнал медицинской практики, 2007, вып. 19-35.

t-критерий очень любят использовать для сравнения более, чем двух групп. Свойство третье: сравнение двух выборок. Затем на основании этого делается некий вывод, что является абсолютно некорректным. Делается это, как правило, следующим образом: попарно сравниваются отличия группы А от В, В от С и А от С. Но на самом же деле вероятность ошибки значительно превышает 5%. В этом случае возникает эффект множественных сравнений.
Получив достаточно высокое значение t в каком либо из трех сравнений исследователи сообщают что «P < 0,05».

Почему?

Значит, максимальная приемлемая вероятность ошибочно отвергнуть нулевую гипотезу при сравнении групп А и В — 5%. Разбираемся: допустим, в исследовании был принят уровень значимости 5%. Но ведь точно такая же ошибка произойдет в случае сравнения групп В и С, и при сравнении групп А и С тоже. Казалось бы, все правильно? В общем случае эта вероятность равна
P′ =1 − (1- 0,05 )^k
где k — число сравнений. Следовательно, вероятность ошибиться в целом при такого рода оценке составит не 5%, а значительно больше.

При сравнении четырех групп число пар и соответственно возможных попарных сравнений равно 6. Тогда в нашем исследовании вероятность ошибиться при отвергании нулевой гипотезы составляет примерно 15%. Поэтому при уровне значимости в каждом из сравнений 0,05
вероятность ошибочно обнаружить различие хотя бы в одном равна уже не 0,05, а 0,31.

Один из способов — это введение поправки Бонферрони. Такую ошибку все же несложно устранить. Отсюда:
α′ < αk,
где α′ — вероятность хотя бы один раз ошибочно выявить различия. Неравенство Бонферрони указывает нам, что если k раз применить критерии
с уровнем значимости α, то вероятность хотя бы в одном случае найти различие там, где его нет не превышает произведения k на α. Для трех сравнений нам необходимо взять из таблиц t-критерия значения, соответствующие α = 0,05/3 = 0,0167. Тогда наша проблема решается очень просто: нужно разделить наш уровень значимости на поправку Бонферрони — то есть, на кратность сравнений. Да, кстати, увлекаться этой поправкой тоже не стоит, уже после деления на 8 значения t-критерия излишне устрожаются. Повторюсь — очень просто, но эту поправку нельзя игнорировать.

Я сознательно не привожу тут формул, чтобы не снижать читаемость текста, но следует помнить, что расчеты t-критерия варьируются для следующих случаев: Далее идут "мелочи", которые очень часто вообще не замечают.

  • Различный размер двух выборок (вообще, нужно помнить, что в общем случае мы сравниваем две группы по формуле для двухвыборочного критерия);

  • Это — случаи, когда измеряют данные у одного больного в различные интервалы времени, данные у группы животных до и после эксперимента, и т. Наличие зависимых выборок. д.

Цифры приведены для 1998 и 2008 года для ряда китайских научных журналов, и говорят сами за себя. Напоследок, чтобы вы представили весь масштаб происходящего, я привожу более свежие данные по неправильному использованию t-критерия. Очень хочется, чтобы это оказалось в большей степени небрежностью оформления, чем недостверными научными данными:

image

Shunquan Wu et al, The Scientific World Journal, 2011, 11, 2106–2114 Источник: Misuse of Statistical Methods in 10 Leading Chinese Medical Journals in 1998 and 2008.

Нельзя доводить до научного греха — ложных выводов — искажением данных неправильно примененной статистикой. Помните, низкая значимость результатов — еще не такая печальная вещь, как ложный результат.

Про логическую интерпретацию, в том числе неправильную, статистических данных, я, пожалуй, расскажу отдельно.

Считайте правильно.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Об удалении тренда из экспериментальных данных

При анализе экспериментально полученных стационарных временных рядов, как правило, при предварительной подготовке (препроцессинге) данных возникает необходимость в подавлении имеющегося в них тренда. Здесь будет предложен «новый» метод выделения тренда — простой, очевидный и пригодный для очень сложных видов тренда. Наиболее ...

Crew Dragon взорвался

Ранее он успешно слетал к Международной космической станции в беспилотном режиме и вернулся на Землю. Космический корабль компании SpaceX Crew Dragon вчера взорвался при наземном испытании системы аварийного спасения. Двигатели SuperDraco должны осуществлять аварийное катапультирование корабля, если произойдет нештатная ситуация ...