Хабрахабр

Big data, deus ex machina

Источник

Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». «Данные — это новая нефть». Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес. Сегодня мы хотим поговорить не просто о данных, а о больших данных.

Слушать на iTunes, ВКонтакте, на Soundcloud. Эта статья вдохновлена нулевым выпуском подкаста «Завтра облачно».

От data к big data

У компаний есть IT-инфраструктура, они используют разные приложения: CRM, корпоративную почту, файловые хранилища и так далее. Давайте разберёмся, какие бывают данные. Данные постоянно перемещаются из одного хранилища в другое, попадают к разным пользователям, копируются, видоизменяются, фильтруются. Иногда предоставляют какие-то сервисы для внешних клиентов. Так вот: даже если всего этого много — это ещё не big data, это просто данные.

Как вы понимаете, они возникают только в такой IT-системе, которая вообще способна сохранять все эти «данные о данных» в привязке к самим данным. А вот если про каждый фрагмент этих данных известно, кто и когда их создал, отправил, переслал, изменил, как часто открывал, сколько времени просматривал, если можно автоматически делать срезы этих данных по пользователям, по времени, по каким-то самым фантастическим параметрам — вот это уже большие данные.

То есть, данные + их метаинформация, логи. Итак, big data — это данные о данных. Big data знает, как вело себя каждое звено в цепи событий, которые происходили с каждым файлом, видео, картинкой.

То есть big data — это хлеб машинных алгоритмов. И сразу скажем, если большие данные кому и по зубам, то только алгоритмам машинного обучения, нейросетям.

Big data — данные о данных

Вот смотришь ты видео на Youtube, а под ним отображаются метаданные: создатель, дата создания, реакции пользователей. «Атомы», из которых состоят большие данные, можно увидеть на уровне простых граждан, «b2c-пользователей». К слову, в разделах аналитики видеосервиса сами «ютуберы» могут посмотреть небольшие срезы из этих данных про свои видео. Если сложить вместе все видео и их метаданные (что сам Youtube, конечно, легко может сделать), то получится big data, из которой можно узнать много интересного.

Лилу говорит: «Не данные, Большие данные!»Источник

Мы обещали рассказать, как big data позволяет зарабатывать деньги. Но вернёмся к бизнесу. Вот конкретные примеры.

«Ситимобил» — как подать машину вовремя, чтобы все остались довольны

Водители и потенциальные пассажиры взаимодействуют друг с другом через онлайн-диспетчерскую. Такси-сервисом «Ситимобил» может воспользоваться любой, у кого в смартфоне установлено одноимённое приложение. Информация, которую она получает и анализирует, это и есть big data.

Задача по определению противоречивая и требующая оптимизации на основе моря данных. У диспетчерской есть конкретная задача: сделать счастливыми всех на свете — пассажирам предложить цену меньше, чем у конкурентов и у себя же вчера; водителям — предложить оплату больше; а себе заплатить за всю эту систему, её эксплуатацию и рост.

Мы знаем местоположение водителя и пассажира, их удалённость друг от друга, количество отказов и успешно завершённых поездок. А данные такие. Всё это помогает предложить цену для пассажира в виде тарифа «Ситимобил» и оплату водителю, которая его устроит. Знаем погоду здесь и сейчас, прогноз погоды на ближайшее время и ещё много других факторов. Если копнуть глубже, то окажется, что рассчитывается несколько вариантов, например, с учётом погоды или местоположения, на основе которых будет вычислено какое-то среднее значение, самый выгодный для пассажира и водителя коэффициент.

Ведь не всегда водитель, который находится ближе всего, будет оптимальным выбором с точки зрения сервиса. Попутно нужно решить ещё одну задачу: правильно распределить водителей между потенциальными клиентами.

«Ситимобил» делает хорошо.

В ней есть информация о том, где находятся клиенты и водители, какой у них опыт поездок, как стоимость раньше зависела от погодных условий и какими были результаты предыдущих расчётов стоимости. В случае «Ситимобил» big data — это большая выборка данных о поездках. Получается, что основная роль больших данных в этом случае — помочь оказать услугу максимальному количеству клиентов и задействовать при этом все доступные автомобили.

Как связать пользователей «Ситимобил» и Delivery Club

Соответственно, данными, которые получил один сервис, может воспользоваться другой, тоже подключённый к платформе. В Mail.ru Group данные хранятся и обрабатываются на единой платформе, к которой привязаны все бизнес-юниты. Вот как это работает на примере такси «Ситимобил» и доставки еды Delivery Club, которые входят в Mail.ru Group.

Легко сделать вывод, что это люди платежеспособные, но занятые. У Delivery Club есть база клиентов, среди которых можно найти самых активных: они часто заказывают доставку еды и тратят на это крупные суммы. Именно big data помогает «угадать», кому лучше показать предложение бесплатно протестировать новую услугу. Значит, им может подойти такси «Ситимобил», им можно предложить купон на бесплатную поездку, которым они с высокой вероятностью воспользуются, а там — как знать — может быть, станут постоянными клиентами.

И чем лучше работает big data, тем точнее таргетирование. Другим пользователям подобные предложения рассылать нерационально: они им интересны с меньшей вероятностью, а мы все знаем, как раздражает реклама, которая «не попадает».

Big data в рекламе: вы видите то, что точно захотите купить

В задачах таргетирования рекламы — то есть, показывания её кому нужно — машинные алгоритмы и big data начали применяться едва ли не в первых рядах. Собственно, это продолжение предыдущего примера. С появлением интернета всё изменилось, и скрыться от онлайн-рекламы стало невозможно: она «смотрит» на нас из любого приложения и сайта в компьютере или смартфоне. Когда мы смотрели рекламу только по телевизору, рекламодатели плохо могли оценить её эффективность, разве что устраивать холодные обзвоны.

Иногда не очень. Насколько точно она попадает в цель? Серьёзно, кому нужна вторая мультиварка? Замужним предлагают услуги брачных агентств, купившим мультиварку — ещё мультиварку. А кто целый год принимает решение о покупке книги, дрели или развивающей игрушки для трёхлетки?

Вспомните хотя бы историю про девочку-подростка, беременность которой супермаркет вычислил быстрее, чем она сама и её родители. Да, машинам ещё нужно учиться, но получается у них всё лучше. В общем, 60 % американских маркетологов-руководителей верят в ИИ и делают на него ставку в персонализации коммуникаций с покупателями. Да, вначале был скандал, но в итоге супермаркет оказался прав!

С помощью big data специальные платформы накапливают информацию о том, как вы раньше взаимодействовали с рекламными объявлениями: как долго изучали, когда делали клик, на каком этапе закрывали рекламу. Итак, цель таргетирования — показывать рекламные объявления так, чтобы тот, кому их показали, обратил на них внимание. Более того, система показывает разным людям разную цену или предлагает скидки и купоны. Зная это, система выбирает, кому показать рекламу, чтобы та «выстрелила» с высокой вероятностью. О да, big data помогает вас «хакнуть», чтобы вы совершили компульсивную покупку!

Как обрабатывают большие данные, чтобы извлечь максимум пользы

Отличие больших данных от обычных в том, что человек никак не участвует в их обработке, все операции выполняет алгоритм машинного обучения. Собрать данные — полдела, важно ещё правильно их обработать. Постепенно результаты его работы улучшаются. Он не просто находит закономерности, а постоянно учится. После обработки алгоритму становится понятно, какую рекламу этому пользователю предложить в следующий раз. В той же контекстной рекламе про каждого пользователя собирается информация о кликах, «куках», глубине и продолжительности просмотра.

Big data можно анализировать только с помощью машинного обучения

Это очень сложно реализовать без мощных автоматизированных инструментов, которые собирают статистику. Представляете себе объем вычислений, которые необходимо сделать для каждого (!) пользователя? Десятки и сотни суперкомпьютеров «ворочают» сотнями петабайт данных, чтобы за несколько миллисекунд найти правильное решение. А ещё это огромные объёмы информации, которая обрабатывается параллельно и очень быстро. В контекстной рекламе таким решением будет показ объявления, которое «выстрелит», в поисковой системе — выдача релевантных ссылок в ответ на ваш запрос.

Понятно, что речь идет о «нетранспортабельных» данных, которые нельзя загрузить на один накопитель и передать в другой дата-центр. С объёмами данных получается интересная ситуация: нет четкой границы, по которой проходит разделение между big data и не big data. Но важен не столько объём, сколько способ обработки: с обычными данными справится один человек, с большими — только нейронные сети.

Неструктурированные данные

На то есть веская причина: большие данные не структурированы, они не хранятся стройными столбцами в таблицах, а выглядят как текстовые фрагменты, сканы, аудио- и видеофайлы, последовательности цифр. Итак, никто не справится с анализом данных лучше алгоритмов машинного обучения. Чтобы вникнуть и сделать правильные выводы из этой информации, потребуются сотни, тысячи человеко-часов.

Big data — это данные в естественном виде, «как есть».

Им нужна структурированная информация. Аналогично обстоит дело со стандартными (не машинными) алгоритмами анализа данных. Машинные алгоритмы обработки big data снова оказываются на порядок умнее. Любой хаос в данных, не предусмотренный при создании алгоритма, помешает ему извлечь полезную информацию.

Например, преобразовать их в нужный формат и заполнять ими SQL-таблицы, чтобы проще было их обрабатывать? Почему бы не приводить big data к структурированному виду?

А преобразование для структурированного хранения приводит к упрощению, отказу от части данных. Дело в том, что подход к обращению с данными в духе big data исходит из того, что мы никогда не знаем, какие данные мы захотим использовать завтра. И если завтра понадобится извлечь другие признаки данных, мы опять вернёмся к исходным данным и сделаем новую выборку, новые преобразования. Big data подразумевает хранение всей исходной информации в таком виде, чтобы в любой момент можно было делать нужные срезы, агрегировать, преобразовывать так, как это нужно именно сейчас.

Ru Cloud Solutions, не рекламируете здесь свои сервисы? Пытливый читатель скажет — почему же вы, Mail. Вот же: наш облачный сервис для работы с большими данными (Hadoop, Spark) и машинное обучение в облаке для быстрой разработки приложений и бла-бла-бла. Ну почему же не рекламируем?

Как менялось отношение к «большим данным»?

Первая эйфория сменилась пессимизмом, как это было со многими хайповыми технологиями. В какой-то момент вопросов было больше, чем ответов. Как собрать big data? Как объединить данные из разных источников? Как обработать их быстро и с минимальными потерями? Прошло время, и бизнес понял: невозможно просто извлечь big data из имеющейся инфраструктуры, необходимо использовать специальные платформы, которые умеют их правильно собирать и анализировать. Затем мы пережили «схватку» платформ, которые боролись за кошельки корпоративных клиентов, и наконец-то в этой сфере наступило условное затишье. Сейчас на рынке работают несколько хороших платформ — Hadoop, Clickhouse, некоторые облачные решения. Есть бизнес, который готов вкладывать в это деньги.

В IT всегда есть место для появления революционных продуктов, и не исключено, что скоро появятся новые инструменты для big data. Мы не зря назвали затишье условным. Добавьте к этому постоянно растущие объемы данных, и вы поймёте, что и разработчикам, и бизнесу не приходится скучать.

Какое будущее ждёт большие данные

Большие данные уже контролируют нашу повседневную жизнь, но мы почти не замечаем этого. По несколько часов в день мы работаем с компьютерами, смартфонами, гаджетами, которые непрерывно собирают о нас информацию. Big data будет ещё глубже проникать в нашу жизнь, но сможет проникнуть не во все её сферы. В некоторых отраслях данные очень трудно спрогнозировать. Два хороших примера — прогнозы погоды и событий на рынке: погода зависит от слишком большого числа хаотичных факторов, а рынок всё время развивается, плюс на него могут умышленно влиять люди. Для обеих областей есть решения на основе ИИ, но прорыва пока не видно.

Где big data находит применение уже сегодня:

  • создание антивирусных программ;
  • анализ геномов, молекулярная биология и биомоделирование;
  • поиск нарушителей на дорогах, преступников (камеры видеонаблюдения снимают, а система распознаёт лица, действия, номера транспортных средств);

(Вы уже напряглись? Давайте пугаться дальше!)
На фоне стран, которые внедряют технологии big data, здорово выделяется Китай. В нём хорошо развита система видеонаблюдения и анализа лиц, чем активно пользуется бизнес и государственные службы.

Роман-антиутопия «1984» Джорджа Оруэлла — это тоже про big data. Источник

Одновременно сами данные постепенно перестают быть анонимными: по фотографии человека уже можно понять, кто он, чем занимается и где живёт. Сегодня люди, которые раньше не интересовались высокими технологиями и big data, начали понимать, насколько это мощные инструменты для бизнеса. Это хорошо или плохо? То, что происходит сейчас и будет происходить в будущем, можно назвать настоящей тотальной слежкой.

Изменить ход выборов? Всё зависит от конечных целей. Выследить инакомыслящего? Найти преступника? Подобрать такси, которое быстро и за разумные деньги доставит вас из точки А в точку Б? Вернёмся в 2019 год: предложить вам рекламу того, что вы, вероятно, купите? В общем — страшное дело.

Биг дата — за вами следят. Источник

И каким бы драконовским ни выглядел GDPR с точки зрения провайдеров услуг и вообще IT-компаний, это неплохая попытка защитить право граждан «не попадать под микроскоп». Пока по факту у пользователей довольно мало прав выбора в том, разрешать или запрещать собирать информацию о себе. Впрочем, это была далеко не первая попытка отрегулировать обработку и хранение персональных данных. Например, 17-й пункт даёт «право на забвение» — позволяет гражданам Евросоюза требовать удаления связанных с ними результатов поисковой выдачи без весомых причин.

Может быть, в будущем за анонимность придётся платить большие деньги? Интересно, что будет дальше. Помните «Мы» Замятина — дома с прозрачными стенами? Или смириться с тем, что полная конфиденциальность недостижима, расслабиться и жить в обществе, где все всё и обо всех знают? Если в «слежке» будет использована технология блокчейн, она позволит хранить данные так, что их невозможно удалить из цепочки незаметно, не повредив структуру.

Итак: чем более открытое и честное общество, тем лучше оно развивается. А теперь передадим микрофон некоему обобщённому big-data-оптимисту и выделим ему ровно один абзац. Ведь чем больше информации, тем больше открытости и прозрачности в обществе. Эта открытость — заслуга big data. Например, перед очередными выборами они смогут узнать правду о кандидатах, словно это персонажи RPG-игры: какие скиллы у них прокачаны и до какого уровня, что делали в прошлом, какие у них наклонности и в каких щекотливых ситуациях побывали. Обычным людям это даже полезно. Всё, конец оптимизма. Это отличный способ исключить воров, взяточников и просто некомпетентных личностей, которые хотят прийти к власти.

И у нас к вам два вопроса: Итак, те, кто владеют данными и извлекают из них полезные выводы, будут такими же могущественными, какими раньше были нефтяные и индустриальные магнаты.

  1. Вы уже осознали, насколько наша жизнь зависит от больших данных?
  2. В плане big data вы оптимист или пессимист?
Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть