Хабрахабр

Краткий гайд по созданию оракулов, богов из машины и ошибкам второго рода

Наверное, в этом тексте для многих не будет новизны. Наверное, другие скажут что такого не бывает в реальной жизни. Но, уже не первое апреля, а всё написанное тут — чистая правда, которая случалась со мной или с людьми вокруг. Возможно что-то из сказанного заставит вас переосмыслить окружающие вас феномены.

У Юдковского, с коим знакома четверть Хабра — эта ошибка обычно зовётся «Подтверждающее искажение». Если подходить к этим историям формально, то можно сказать что все они порождены тем что люди не учитывают ошибку второго рода.

В двух словах — «человек ищет подтверждение своей модели, а не её опровержение». Что это такое? Лишь так можно развить чувство что «что-то тут не так». Единственный шанс объяснить лучше, это примеры-примеры-примеры и опыт.

Со стороны того, как они уже вошли в нашу жизнь, влияют на практически каждое решение. Мне кажется, что этот короткий рассказ позволит вам посмотреть на ошибки второго рода с совсем другой стороны. В машинном обучении я наталкиваюсь на это каждый день.
И помогают нам делать богов из окружающих технологий.

Введение

Начну с байки своего научрука.

Один из докторов наук, руководитель большого отдела в одном из КБ, презентовал новый метод для нахождения летающих объектов радаром. Однажды, ещё во времена Союза, проходило заседание совета нескольких КБ. При этом точность нахождения была практически идеальной, превосходила существующие алгоритмы на порядки.

Никто на совете её не смог понять из доклада/сопутствующих бумаг. В основе была какая-то хитрая фрактальная математика. И репутация у него была устоявшаяся. А человек, который презентовал алгоритм приводил всё больше и больше доводов, что на этот алгоритм нужно переводить все радары. Но понять где ошибка в математике — никто не мог.
И лишь один аспирант на совете, который попал туда случайно, заменяя своего начальника, спустя час обсуждения, решил спросить: «А какая вероятность ложного обнаружения если объектов нет»? Все чувствовали подвох. Математики он не понимал, но явно чувствовал что не может точность скакнуть на порядок.

Все были уверены что такая тривиальная вещь, очевидно, проверена. Все замолчали. Но доктор, который защищал математику, побледнел, осунулся и лишь выдавил из себя «Мы забыли посмотреть...».

И чем больше они в ней уверены, тем более злую шутку это может с ними сыграть. Люди, пусть даже умные и титулованные — в первую очередь ищут подтверждения своей теории.

Прочувствовать на себе

Если статья продолжится так дальше, то тут не будет картинок! Но ведь я знаю, что статьи на Хабре открываются только ради класных картинок!

Они подтверждают, что особенность доверять наиболее простому решению заложена в нас на уровне природы. И по этой теме их много. И, наверное, не надо объяснять: Все вы их видели много раз.

Классическое желтое (синее ?) платье.

Куб Неккера, как тут без него


Вращение вправо/влево

Мозг зацикливается только на одной точке зрения, которая разрешает задачу. Особенность этих иллюзий — они имеют двойное толкование. И только скажите мне что можете удержать в голове одновременно два представления!!! И упускает из внимания другие точки зрения.

Как гороскопы, которые ни о чём, но человек ищет подтверждение. Это как религия, которая может объяснить природу феноменов. Не верите? Зачастую нельзя определить что тебе насчитала умная система и как это сопоставить с реальностью.

Пример номер два, про жуликов

Ну, вот как вам такой проект? Использование Neurosky для оценки талантов ребёнка? Любому человеку более-менее разбирающемуся в технологиях понятно, что это разводка. Шумнейшие показания Neurosky еле-еле позволяют отличать игру на гитаре от чтения книги.

Дети неспокойны, что генерирует высокий уровень шумов. И это не говоря о том, что для детей всё в 100 раз сложнее. Работало бы это — это был бы прорыв. И, естественно, разработчики не приводят никаких доказательств алгоритма и статистической значимости. Но это лишь способ разводки.

Кто-то был просто псих, а кто-то вполне цинично намекал что “ну, вы систему сделайте, ведь что-то она всё равно покажет, она же не может полную чушь после обучения давать”. После моей статьи про NeuroSky мне человек пять писали с аналогичными идеями в почту/личку. А тот сайт что я привёл чуть выше — приводили как пример.

И чем вам это не гороскопы?

Ну, есть одна контора которая разводкой занимается. К чему это тут? Ведь это не массово! Ну саентологи есть.

Такие вещи наполняют повседневную жизнь. Но, мне кажется, что не пара. Ниже по тексту будет ещё несколько показательных примеров про которые вы все прекрасно знаете (успеете вспомнить до того как дочитаете?). И технологии генерируют их каждый день. А в комментариях вы сможете привести свои.

И одно дело, когда верят люди которые не понимаю в ней. Ключевым мне кажется в данном случае то, что это показывает что много людей желают верить в технологию/методологию. Второе, к сожалению, прогрессирует. А второе дело — самообман создателей.

Пример номер три, повседеневный

Мне кажется, что рассказы не должны повторяться, что каждый из них должен показать человеческую природу с какой-нибудь другой стороны. Так что перейду к другой стороне.
Автомобильные номера!

Какие ошибки второго рода!? Чтоо?? Какая магия?

Вот что скажете, какой это номер у авто: А они проявляются тут весьма прикольно.

А регион “71” или “21”? Тут “М” или “Н”?

Как вы думаете, почему? И, тем не менее, на основании одиночных изображений такого плана люди начинают оценивать качество работы системы. И ему сложно признать что на таком фото он может иметь другую трактовку. Обычно потому что человек видел номер такого авто.

Я привел наиболее показательный пример, но если вдруг интересно, вот тут я ещё несколько разбираю. Происходит коллапс сознания в пользу ближайшего решения которое известно.

Проще сказать «это входит в процент ошибок алгоритма». И переубедить его, что номер мог быть другим зачастую почти невозможно.

Человек ожидает готовое решение. Это очень частая ловушка сознания при работе с изображениями и системами распознавания. Путь не интересен. И всё что пришло к другому решению — неверно. Пару раз в месяц мне приходится объяснять что обученный алгоритм не обязан работать по кадрам с шумом. Интересен лишь результат.

Даже на очень хороших снимках сложно найти очки/перчатки и отследить их обладателя. Мне страшно думать как некоторые фирмы предлагают услуги такого плана. Даже если вы не алгоритм, а живой человек.

При этом инженеры на технических предприятиях это не те люди которые задаются философской задачей «а можно ли по этому видео понять есть ли у человека защитные очки, или нет».

И разрешение можно повысить в сотни раз. А ещё многие люди считают что нечитаемые номера тоже хорошо распознаются. И порой очень обижаются что это не так. На хабре была замечательная статья на эту тему. Магия из машины не работает;)

Пример номер четыре, или как можно оказаться в эпицентре

Я привёл три различных варианта. И на все их них можно ответить стандартным “да ну его, это просто некомпетентные люди”. Или “люди ошиблись, с кем не бывает”.

Как только мы имеем дело с неоднозначными решениями, с ситуациями где возможно 3-4 исхода — нельзя оценить уровень своей компетентности. Но, такого рода ошибки куда более распространены, чем вам кажется. Даже если вы очень крутой инженер.

Расскажу вам эпичную историю о том, как могут ошибаться (или не ошибаться) специалисты, находя себе бога из машины.

По телефону я не особо понял объяснения менеджера что надо распознавать. Однажды мне написали с просьбой устроить консультацию по распознаванию каких-то медицинских анализов. Так что договорились встретиться с врачами которые её разработали (скайп для врачей это слишком сложно). Тем более по его словам дело было о какой-то “абсолютно новой” методике.

Я не понимал с кем я общался два часа. На следующий день, спустя два часа встречи мой мозг вскипал. С абсолютными жуликами, с будущими нобелевскими лауреатами, или с людьми которые сошли с ума.

По моче, по крови, по слёзам и по слюне. Группа из нескольких врачей изобрела универсальный тест, который позволял выявить десятки, если не сотни заболеваний.

Диагноз ставился по тому как будут выглядеть трещины, тому какого цвета будет всё это дело, тому какой формы вырастут на засохшей капле кристаллы, как всё выглядит в поляризованном свете. Метод был один и тот же: “замешать жидкость с реактивом (одним и тем же), посмотреть как оно засохнет и растрескается”.

И надо сказать, что первая часть, которая была по моче — была достаточно неплохо обоснована.

Хотя где-то про треть книги с сомнением качали головой. Когда в следующие дни я пытался раскопать информацию по теме и опрашивал врачей — они подтвердили что многое это очень сильно передёрнутые стандартные тесты, которые имеют место быть в реальности.

Какой там Theranos! Но вот вторая часть, по крови, была произведением безумия. 5 миллиарда выделить, а этим товарищам. Просто надо было не какой-то там американке 4.

Всего лишь с помощью микроскопа, пары капель реактивов из любой лаборатории (если память не изменяет, то это был альбумин). Исследователи рассказывали мне как по капле крови они могут поставить рак на самых ранних стадиях. Вот небольшой список того что они детектировали: И рассказывали как успешно применяют эти методологии в клинической практике для лечения пациентов медицинского центра (sic!).



(Кликабельно)

Про десяток кандидатов и докторов наук защитившихся по теме. На мой несколько офигевший взгляд и вопрос про доказательную базу мне рассказали о сотнях статей в литературе, о двух отделах в России работающих по этой методике и развивающих её. А на прощание подарили две книги по теме, где предисловие было написано каким-то академиком:

Не знаю. Правда ли это всё? Ни понимания того как найти эту информацию. Я понял что мне не хватает ни понимания того как работает химия и биология. Ну да. А по формальным признакам. Ни одна из них не опубликована в рецензируемом международном журнале с высоким уровнем цитируемости. Есть куча докторов и статей по теме. Но они, простите, академики РАМН. Есть академики которые рассказывают об успехах методологии. Нет ни одной критикующей статьи, только статьи отчитывающиеся об успехах (гуглил году в 2016, с тех пор могло что-то новое выйти).

И написал про всё про это… Ответа не получил:) Нет, ну я, конечно, нашёл e-mail председателя комиссии по лженауке, и какого-то их его заместителей.

Я понимаю что эти люди верят в это. А по личному общению. Нужно реально верить в своё дело.
Но я понимаю, что при базах на которых они измеряют, при тех параметрах, которые там есть — как минимум половина рассказанного сомнительна. Блин, российская медицина это не то место где ты на обмане такого уровня можешь что-то сделать. Но что-то реально может работать.

Возможно из-за того что я говорил что чтобы что-то автоматически распознать — надо сначала собрать большую базу и подтвердить независимой разметкой что оно существует. Та работа слава богу у меня не пошла. А может и правда из-за бюрократических формальностей.

Врачи которые придумали себе теорию и верят в неё? Кто здесь прав? Я не знаю. Или я — человек со стороны, которому она кажется безумием? А может я. Если врачи ошибаются- то это классическая ошибка “отсутствие проверки контраргументов”. И тогда это почти то же самое:)

Зато с тех пор у меня есть две эпичных книжки и фантосмогорическая история.

И ещё пару примеров про врачей...

Знаете. Врачи это вообще благодатная тема. Когда пытаешься что-то распознать нейронными сетями — постоянно натыкаешься на это. Я работал с большим числом рентгенографических обследований: флюорограммы, маммограммы, общался и смотрел на КТ, видел разные зубы.
И почти везде (в разной мере) имеется одна и та же проблема: разные врачи читают снимки по-разному. Просишь двух врачей отметить патологии на снимках — а у них область пересечения 20-30 процентов. И каждый из них уверен в своем решении, показывает чёткие границы.

И опять же, проблема от того, что человек выстраивает в своей голове хорошую модель, проецирует её на изображение, а потом ищет подтверждение. Обосновывает свой ответ. Или недостоверный. Но очень часто — это неправильный ответ.

Это очень глубоко сидит в психологии. К сожалению, прошлые столетия медицина больше строилась не на “доказательстве каждого шага статистикой”, а на “логическом объяснении каждого шага”. Есть набор базовых установок и вера в него. Порой мне кажется, что врач-гомеопат и плохой терапевт работают по одному принципу. Без осознания чему можно доверять. Без анализа откуда что пошло. Но глобально ни тот ни другой не могут доказать те схемы которые используют. Скорее всего набор установок терапевта более приближен к реальности. Может даже оба назначат валидола или отправят попить пустырника.

Дядечка мне рассказывал как с 100% точностью по опроснику уровня «дата рождения, дата первых месячных, число детей, ..» из 30 вопросов можно предсказать когда будет рак груди. Однажды меня попросили проконсультировать хирурга… Начальник какого-то отделения, видный специалист с 30-летней практикой. Но этот опросник он предлагает заполнить всем своим пациентам, делая выводы на его основе. Ну, это, конечно, смешно.

Примеры из того, чем нам дурят голову каждый день

Ходите больше?.. Хотите чего-то, про что знаю все? Ну, возьмём великую и страшную машину, которой все боятся. Полиграф. Что, вы до сих пор верите что он работает? Ссылка ведёт на википедию. Пройдите и посмотрите критику. Почему это не работает и какие там достоверности. А до сих пор их многие используют. Чем вам не бог из машины?

Очень обижаются когда я прошу их сказать какого размера у них база. Мне регулярно пишут разные компании, которые предлагают сделать распознавание лжи по лицу. Рассказывают, что у них крутая модель, разработанная лучшими физиологами.

Абсолютно неадекватным NDA и безумным пафосом о превосходстве их технологии… С тех пор прошло почти пять лет. Особенно запомнилась одна компания с шикарным офисом в центре Москвы. Только вот продукты к распознаванию лжи не имели никакого отношения, и решают куда более приземлённые задачи (как я понимаю использовали они те же наработки, что хорошо).
Забавно, что потом выяснилось, что не только я их послал, но ещё и другие фирмы занимающиеся разработкой машинного зрения. У компании даже свой блог на Хабре с тех пор появлялся. Возможно это позволило им переосмыслить что они делать — и начать заниматься делом ^_^

Хотелось бы предложить им другой 100% проверенный метод узнать про кандидата побольше. Напоследок не могу не удержаться и не дать ссылку на анонс портала Superjob который был несколько дней назад.

Выводы которые я сделал для себя — любые работы начинать и делать только после полный верификации входных данных и методологии. Наверное пришло время приходить к каким-то выводам?

Не верить никому пока он не покажет верификации своего метода открытым статистическим исследованием/доступом к алгоритму.

Они не годятся для медицины. Я уверен, что эти выводы не идеальны. Уже тысячи лет люди знают, что экстракт ивовой коры помогает сбить температуру. Скорее всего нигде нет верифицированного исследования аспирина. Зачем это исследовать?

проверка — я не могу. А обобщить выводы и понять универсальную стратегию доверие vs.

Но наверное если вы начнёте задаваться вопросом «а можно ли доверять тому или иному методу» — статья уже выполнит свою цель.

S. Дисклеймер P.

Или где могу заблуждаться я. Я сознательно старался не упоминать имена людей/названия компаний где есть хоть какой-то шанс на то, что люди добросовестно заблуждаются. Я бы просил не выкладывать это в комментариях. Наверное, по тому что есть в тексте — многих можно вычислить или нагуглить. Все кому надо — сделают это сами/смогут спросить в личке.

Но мне кажется важным показать на этих примерах что наше взаимодействие с современным миром порождает кучу ошибок сознания в людях. Во многих ситуациях я могу не знать глубокие подробности решений, так что не считаю нужным клеймить каких-то людей.

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»