Хабрахабр

Bigdata, машинное обучение и нейросети – для руководителей

Если менеджеру попытаться разобраться в этой области и получить конкретные бизнес-ответы, то, скорее всего, страшно заболит голова и екнет сердце от ощущения ежеминутно упускаемой выгоды.

"AlphaGo обыграл чемпиона по Go" впервые за всю историю человечества, скоро наши улицы заполонят беспилотные автомобили, распознавание лиц и голоса теперь в порядке вещей, а в квартиру к нам завтра постучатся AI-секс-куклы с грудью наивысшего размера с шампанским под мышкой и настраиваемым уровнем интенсивности и продолжительности оргазма.

Как на этом заработать в краткосрочной перспективе? Все оно так, но что делать-то прямо сейчас. Как заложить прочный фундамент на будущее?

Ведь то, что не понимаем, то и не “танцуем”. Постараюсь дать исчерпывающие ответы на все мучающие вас вопросы, «вскрыть» подводные камни и, главное — здраво оценить риски в AI и научиться ими правильно управлять.

Много «мути» и сложных слов

Это, пожалуй, самое страшное – когда бизнесмен «попадает на науку».

Если у человека от квадратного уравнения в школе до сих пор болит голова и подергивается правое ухо на левой ноге, то от слова «перцептрон» может вообще произойти потеря сознания и неконтролируемое мочеиспускание.

Чтобы было легче – представим, что мы сидим в баньке, пьем пиво и рассуждаем человеческим языком. Поэтому дальше – говорим только понятными словами.

image

«Умные» коробочки с очень высокими амбициями

Представьте себе робота, или «умную» коробочку с претензией на решение сложнейших задач. Как проще всего понять принципы применения моделей машинного обучения в бизнесе?

Машине нужно буквально прописать миллионы правил и исключений – поэтому так никто не делает. Решать такие задачи в лоб — нереально.

А если BigData у вас уже есть, то «умная» коробочка потенциально может стать еще «умнее» — опережая «коробочки» конкурентов или обычных сотрудников не только по скорости, но и по качеству решений. Делают иначе – «умные» коробочки обучают на данных, например о ваших клиентах.

Итого, делаем глоток пива и запоминаем – чем больше данных вы сможете достать, тем более «умной» станет ваша робо-коробочка.

Сколько нужно данных?

Но зато известно, что чем больше «качественных» данных— тем лучше. Комично, но у человечества до сих пор нет точного ответа на этот вопрос.

И только нейросети, как правило, лучше других известных сейчас способов, могут качественно вытащить информацию из этих данных.

И даже неплохо работать. На пальцах — принято считать, что различные алгоритмы НЕ на нейросетях способны обучаться на десятках, сотнях и тысячах (и даже больше) примеров. Подобные алгоритмы просто не в состоянии "впитать" в себя знания, сколько бы мы не пытались в них засунуть. Но обучать их на реально больших объемах данных — часто бессмысленно и бесполезно.

Им, часто, гораздо лучше «скармливать» сотни тысяч и миллионы примеров из BigData. Нейросети же, особенно «глубокие», содержат каскады нейронных слоев и килограммы сложно объяснимых алгоритмических "потрохов". Но… десятки и сотни примеров им не подойдут — они их просто запомнят и не смогут адекватно предсказывать будущее на новых данных.

Делаем глоток пива, обнимаем девушку за талию и запоминаем — если данных мало – то НЕ нейросети (а, например, catboost), если много – нейросети, а если данных очень много – то ТОЛЬКО нейросети. Поэтому. Сложные, интересные, привлекательные и «глубокие» (deep learning).

Какие нужны данные?

За примером не нужно далеко ходить: крупные вендоры типа Google, Facebook, Amazon, Яндекс, Mail.ru успешно делают это уже многие годы, почти нас не спрашивая. Комично до слез, но разумного ответа на этот вопрос пока тоже нет: cобирайте все, что можно и нельзя. Дальше — будет еще хуже.

Но… с привязкой к идентификатору человека.
Банально — по кукам в браузере или по номеру мобильного телефона. Активность людей, интересы, пристрастия, перемещения, знакомые – все это фиксируется в часто достаточно обезличенной форме. А когда к вам на сайт приходит кто-то в интернете, вы легко можете достать цифровую историю следов этой личности — и не важно, это Иван Иванович или "abh4756shja" — он интересуется ритуальными топорами, так покажем ему все их разновидности!

Если говорить более конкретно, то, например, от клиентов компании обычно собирают такую статистику:

  • число обращений в техподдержку
  • число и продолжительность звонков в компанию за определенный период
  • приобретенные товары и услуги
  • поисковые запросы на сайте компании
  • заявки и пожелания
  • данные заполненных анкет
  • все что можно собрать в таком духе

заказанные товары, поисковые запросы, обращения в чат поддержки. Интернет-магазины обычно фиксируют посещенные страницы и их названия.

Ибо дальше будет еще жарче. В итоге, забираемся на полочку повыше, там, где в баньке погорячее. Все, что характеризует их активность, динамику и интересы. И фиксируем в голове – нужно собирать/покупать все что МОЖНО о наших клиентах.

Чем больше всякой биометрии и телеметрии мы соберем — тем лучше мы сможем потом обучить "умную коробочку" и дальше сможем оторваться от наших конкурентов.

Риски – качество данных

Допустим, мы пытаемся определить — беременна ли сотрудница нашей компании? Рассмотрим пример. Для этого предварительно собираем несколько параметров:

  • число обращений к врачу компании
  • число посещений спортзала компании
  • число больничных в днях
  • время звонков с клиентами в минутах
  • число досрочных уходов с работы домой
  • времени до окончания рабочего дня в минутах
    И в таком духе. Никто не знает, что нужно собирать, но интуиция подсказывает, что пригодится все, даже фазы Луны и номера повторно просмотренных сезонов "Игры престолов".

Но если мы решили собирать 500 параметров по каждой беременности, а статистики по поведению беременных сотрудниц у нас всего на 10 примеров из реальной жизни — это не сработает. Если соберем десятки, а желательно сотни (тысячи) примеров и они не будут повреждены багами программистов то, скорее всего, наша предиктивная модель обучится хорошо. данные будут сильно разряженными. Даже ребенок поймет — так «умная» коробочка ничему толковому не научится, т.к.

Вы — большой босс или маленький боссик, отвечающий за крупный рост конверсии (так тоже иногда бывает). А бывает еще так, особенно в крупных компаниях. Но глаза «дающих» спрятаны или бегают. Аналитики приносят вам данные о покупателях. В общем, вы сомневаетесь в качестве этой бигдаты. Или выпучены в безумной отваге. И это — правильно.

Чтобы распознать подвох — разузнайте об использовании инженерных практик в подразделениях разработки у технического директора:

Пишут ли команды программистов модульные и интеграционные тесты к коду?

А дальше разработчики легко могут поломать код. К сожалению, часто бывает так: программист увольняется, а те, кто остался, не понимают «как оно работает». Пока не узнают об этом из жалоб от разгневанных клиентов. В любой момент. Или об этом узнаете вы, когда не сможете обучить нейронку из-за «кривой» бигдаты.

Ведется ли точный учет и отработка ошибок? Настроено ли автоматизированное тестирование и мониторинг инфраструктуры, которая собирает данные о ваших покупателях? Или определить процент потерянных данных без экзорциста невозможно?

Если все это есть — то, скорее всего, вам принесли качественную bigdata, иначе — толку от собранных данных будет мало, но, все же, попробовать стоит.

Данные есть. Что дальше?

В большинстве случаев она может ответить «да» или «нет», уверенно или не уверенно и … всё. Хотите на пальцах понять, что умеет обученная на собранных данных "предиктивная" модель? Повторите. Обязательно, прямо сейчас, напишите фразу "предиктивная" модель несколько раз на спине загорелой девушки, сидящей рядом на банной полке, затем нанесите несколько шлепков дубовым веником.

Вы — интернет-провайдер. Пример. Вы хотите предсказать, перейдет ли он на платный тариф или нет? У вас есть условно-бесплатный клиент. Ведь если вы сможете заранее знать будущее и еще не проявленные склонности клиентов — вы сможете более эффективно использовать маркетинговый бюджет, работая с потенциальными и не обращая внимания на тех, кто и нас скоро уйдет от вас.

И тут нужно очень хорошо понять, как же правильно работать с понятием "уверенности" классификатора и потренироваться. «Нейронка», в лучшем случае, после обучения на данных, ответит вам либо уверенное «да», либо неуверенное «да», либо уверенное «нет», либо неуверенное «нет».

А на самом деле у вас 50 потенциально платных клиентов. Допустим, вы отбираете только «уверенные» ответы модели – и вот тут может оказаться, что из 100 ваших клиентов, машина уверенно определит склонность стать платным только для 7 пользователей. модель, из-за вашей осторожности, не продемонстрировала весь свой предсказательный потенциал. Т.е.

Если же вы снизите порог "уверенности" и начнете принимать менее уверенные ответы модели — она, скорее всего, вернет вам почти всех действительно потенциально платных клиентов, но и немало других, не платных — а что вы хотите получить, понизив точность?

либо применяем высоко-точное оружие и поражаем 5% злодеев, не нанося ущерб мирному населению, либо бахаем кассетными бомбами, уничтожаем всех злодеев, но вместе с ними всю флору, фауну и низколетящие НЛО. Т.е.

Без него — дальше ну никак. И вот мы уперлись в понимание качества предиктивной модели или бинарного классификатора. В понимании этого принципа — залог вашего успеха. На этой фразе вы можете подавиться, но ничего страшного — дальше будет только хуже 😉 Важно понять, что чем лучше вы натренировали модель, чем более адекватную архитектуру вы подобрали для нейросети, чем больше вы достали bigdata — тем точнее предсказательная модель приблизится к идеалу: предсказывать правильно.

Сделайте глоточек пива и разберем еще один пример.

Качество бинарного классификатора

Берем 100 примеров для обучения модели и 20 — для контроля. Допустим, вы собрали данные по 120 клиентам и вы точно знаете — 60 клиентов стали платными, 60 человек ничего не купили.

Задержитесь на этой фразе и прочувствуйте – бинарный классификатор уже обучен на статистике с уже известным исходом. Обучаем «умную» коробочку с помощью бесплатного софта и хотим проверить — а как она будет предсказывать поведение НОВЫХ клиентов? Ваша цель теперь — применить его на новых клиентах, которых Скайнет в глаза не видел, и заставить его предсказать – купит он ваш продукт или нет? Клиент или стал «платником», или нет.

У вас получился оракл, мать его за ногу! Поняли идею? В этом — сила и суть машинного обучения. Оно действительно работает! Обучиться на исторических данных и предсказывать будущее!

Итак, вернемся на грешную землю.

Берем оставшиеся 20, которые «умная» коробочка еще не видела и проверяем — что она скажет? Вы обучили «нейронку» на 100 клиентах.

Вам заранее известно — 10 клиентов из оставшихся стали платными, а 10 – не стали.

В идеале классификатор должен «уверенно» ответить «да» по 10 и «уверенно» ответить «нет» по 10 оставшимся клиентам.

9 из 1. Порог «уверенности» установим в >=90% или >=0. 0.

На этом этапе можно начать «крутить» порог уверенности вверх, часто получая гораздо меньше уверенных ответов, зато без ошибок (предсказание платника, когда на самом деле нужно было предсказать бесплатника): нужно было предсказать 10 платников из 10, а предсказали только 4.

И наоборот, если покрутить порог уверенности вниз – «коробочка» начнет делать больше предсказаний, но будет больше ошибаться и говорить на черное-белое и наоборот.

Еще раз: по порогу уверенности есть 2 варианта «выкручивания громкости»:

  1. AI будет выдавать вам меньше ответов, но с максимальной «уверенностью» и точностью = высоко-точное оружие
  2. Получаем больше ответов, но точности — меньше и начнутся ложные срабатывания = ковровые бомбардировки

Чем он ближе к 1, тем ближе ваша модель к идеалу. Чтобы не сойти с ума в оценке качества бинарных классификаторов, придумали простой параметр AUC. И тем ближе вы к идеальному предсказанию покупок клиентов.

Еще раз, только проще, но теперь с KPI и премиями:

  1. Разработчики «учат» ваш бинарный классификатор
  2. Если на выходе его AUC больше 0.9 – люди идут в отпуск с премиями
  3. Если AUC меньше 0.9 — «ночь работе не помеха» и все думают, где собрать больше данных о клиентах, как выбрать лучшую архитектуру для модели и где еще остались баги в коде сбора данных и обучения нейросети

0 и вы наверняка обойдете конкурентов! В общем, самое простое тут: установите вашей команде целевой KPI по качеству классификатора AUC — максимально приблизиться к показателю 1.

Бизнес-применение «умных» коробочек

Правильно, дальше будет самое интересное. Вы еще живы?

Окунувшись в леденящую воду математики и протрезвев, предлагаю вернуться к девушкам и естественным удовольствиям.

А где их сейчас применяют? Теперь вы знаете, что нужно для получения качественной «нейронки». Да везде, где нужно получить ответ «да» или «нет»:

  • выдавать кредит?
  • купит ли действующий клиент ваш новый продукт?
  • станет ли ваш бесплатный клиент платным?
  • уйдет ли ваш клиент к конкуренту?
  • уволится ли ваш сотрудник?
  • доволен ли клиент качеством вашего сервиса?

В «Битрикс24» мы успешно применяли и применяем бинарные классификаторы для предсказаний:

  • купит ли бесплатный клиент платный тариф «Битрикс24»?
  • уйдет ли от нас платный клиент?
  • как надолго он останется с нами?

А еще весь этот хайтек сейчас активно применяют и в персонализации товаров и услуг, и в задачах CRM и где только не применяют и дальше будет хуже.

Персонализация услуг и автоматизация работы маркетинга

Для этого — созданы программисты и для этого созданы предсказательные модели. Я веду вас к одному правильному выводу: на кой крендиль делать лишнюю работу своими руками, если ее можно автоматизировать?

«Умные» коробочки и другие виды предиктивных моделей можно легко внедрить для автоматизации рутины, например, отдела маркетинга: авто-таргетирование рекламных предложений на сайте или в email-рассылке.

Интегрируйте в ваш интернет-магазин робота, который будет предлагать вашим посетителям персонализированные товары и услуги.
Конверсия и лояльность ваших клиентов гарантированно вырастет. Так сделайте же это скорее!

А еще лучше — для каждой предлагаемой услуги на основе бигдаты покупок ваших клиентов. Самый простой способ это сделать — обучение нескольких бинарных классификаторов для каждой группы товаров.

Это же так просто. Потом, когда клиент вернется на ваш сайт, AI сразу «поймет» чем его можно «зацепить».

Так реализуйте их скорее. Видите, сколько появилось простых и эффективных способов увеличить конверсию.

В чем подвох?

На самом деле. Да, это все просто.

Более того – возможно вам вообще не придется ничего покупать. Внедрить предиктивные модели, нарастить проектную мощность маркетинга и конверсию в CRM – действительно несложно. И его полно. Софт для обучения «Скайнетов» сейчас совершенно бесплатный.

Если совсем лень в пень – можно поднять модель в облаке и оплачивать лишь хостинг, например в Amazon Machine Learning.

Ответ прост – инертность, нежелание менеджмента среднего звена развивать эффективность компании. Но почему мы видим такие технологии в основном только в западных компаниях, решениях и продуктах? В конце концов, просто… всем пофиг.

Это хорошо видно по скорости внедрения машинного обучения в рекламные сервисы Facebook, Google, Яндекс и Mail.ru. Я искренне убежден, в ближайшее время нас захлестнет поток решений на базе предиктивной аналитики и «нейронного» маркетинга. Кто не внедрит — уступит место конкурентам.

Достаточно вспомнить относительно недавние возможности по выгрузке в Facebook или Google хэшей от емейлов и телефонов ваших клиентов и математическое расширение рекламной аудитории чтобы понять, что дальше будет только … лучше и веселее

Сколько времени у них освободится на креатив, если закрыть рутинное таргетирование и персонализацию рекламных предложений и email-рассылок с помощью «Скайнетов»! Еще одна причина – маркетологи часто просто не понимают, что дает им машинное обучение!

Кто, кроме топ-менеджеров или инициативных сотрудников, сможет продвинуть в компаниях настолько революционные проекты? Поэтому я и пишу такие подробные обзорные статьи для менеджмента.

План действий

В принципе, теперь вы знаете достаточно, чтобы эффективно внедрить машинное обучение, предиктивный маркетинг, повысить конверсию и автоматизировать кучу рутины.

Давайте я опишу конкретные шаги к цели:

С помощью подразделения разработки или руками одного талантливого инженера – собираете данные о клиентах или покупаете их. Раз. 5 строк правильно работающего г… нокода — и вы начнете получать статистику уже через 72 часа Начните со сбора данных на сайте или в мобильном приложении.

Срок: 2-3 дня

Руками одного аналитика создаете несколько предиктивных моделей, они же – бинарные классификаторы. Два. Можно вообще ничего не программировать, а сразу загрузить данные в Amazon Machine Learning (https://aws.amazon.com/aml/details/).

Срок: 2-3 дня

Внедряете «Скайнет» в ваши бизнес-процессы на сайт и в мобильное приложение Три.

Срок: 7 дней

Собираете обратную связь по качеству работы предиктивных моделей. ЧеРтыре. Цель – убедиться, что ваш обученный AI нормально работает с реальными данными. Например, через статистику, голосование, анкеты.

Кому-то чаще, кому-то реже. Есть очень простое правило – обновлять эти модели раз, скажем, в PI (пи) — месяцев.

Упала – обновляйте. Если конверсия выше, чем без использования моделей – значит можно модели не обновлять.

Направьте освободившиеся ресурсы из подразделения маркетинга для решения более насущных задач – например на подготовку более качественных презентаций, вычитку текстов, создание красивых текстов для таргетированной рекламы. Пять.

Теперь таргетированием и персонализацией у вас занимаются роботы, а творчеством – люди – как и задумано в «первый день творения».

Наслаждайтесь эффективностью, ищите новые точки бизнеса, где предиктивные бинарные классификаторы смогут защитить людей от рутины! Шесть.

Удачи вам, успешной автоматизации рутины, послушных роботов и хорошего настроения! Друзья, на этом у меня пока все.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть