Хабрахабр

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные?

Специалист по Big Data, Артур Хачуян, рассказал, как соцсети могут читать наши сообщения, как наш телефон нас подслушивает, и кому все это нужно. Disclaimer. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Эта статья — расшифровка большого интервью. Кто всё же предпочитает видео — ссылка в конце. Мы решили для всех них и вас расшифровать отличный контент.

Специальные программы сканируют фото, лайки и тексты, чтобы продать наши данные рекламным компаниям или полиции. Каждый день мы что-то пишем, разыскиваем и выкладываем в интернете, и каждый день кто-то следит за нами по ту сторону экрана. Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.

Зачем приложение Facebook запрашивает доступ к нашей камере, микрофону и контактам

Интервьюер: – Приведу небольшой пример. На что мы соглашаемся, когда ставим на смартфон приложение «Фейсбук». Итак, оно имеет доступ к данным: о контактах, о запущенных приложениях, о файлах на usb-накопителях, имеет неограниченный доступ к интернету, может запускаться при включении смартфона, менять обои, скачивать файлы, по запросу просматривать смс, снимать видео, звонить, записывать звук. Зачем всё это нужно?

И «Фейсбук» скажет, что, конечно же, всё это нужно для улучшения взаимодействия с приложением. Артур Хачуян: – Ну, на самом деле под каждой этой функцией есть реальная функция «Фейсбука», под каждым из этих запросов. Но мы-то с вами понимаем, что это делается для сбора данных.

Записывают ли приложения наши разговоры

На самом деле здесь тоже есть такая тонкая грань – сейчас вам приведу пример: есть люди, которые сильно очень сильно «паранойят» из-за того, что «Я что-то сказал, «Яндекс»-навигатор это услышал, я начал получать рекламу» или, условный «Фейсбук» (неважно) – «Я где-то говорил, у меня приложение лежало на столе»…

Первый – людям просто показалось, они забыли, что какой-то контент потребляли где-то когда-то, либо они просто попали в статистическую выборку, что люди их возраста, интересов и их паттерна поведения вот в этот момент должны заинтересовать курсами английского языка. Здесь есть три пути развития, так сказать… вот этой параноидальной истории. Они что-то там говорили и им кажется, что кто-то за ними следит.

Читаются ли наши сообщения в соцсетях

Но есть на самом деле вторая история, я много раз проводил такие эксперименты: делаются два чистых аккаунта в соцсетях, с одного в другой пишется сообщение, типа «друг поехали в Сыктывкар» (я всё это в шутку рассказываю, я в жизни не знаю, где Сыктывкар), но через два-три дня начинаешь получать рекламу о турах туда. То есть соцсеть сканирует личные сообщения, что вроде как и нарушает соглашение с ней, но ты это никак не докажешь. А запущенные мобильные приложения очень часто собираются, чтобы понять на самом деле доход этого человека. Очень много делали таких исследований ребята: знаете, вызываете такси с одного и того же места с «Айфона» и «Андроида», и разный ценник даёт таксопарк, потому что они определяют платформу, определяют запущенные приложения… Окей, сначала определяют платформу и понимают, кому нужно какую стоимость для платформы.

Как приложения могут рассказать все о человеке

А запущенные приложения – это вообще такая фишка, которая позволяет о человеке много чего сказать. Как понимаем, кто он? По контенту, который он потребляет. Мы можем по установленным приложениям понять всё, вплоть до сексуальной ориентации. Какие приложения установлены – это, соответственно, реальные интересы этого человека. То есть если у него установлена какая-нибудь «приложуха» для фрахтования самолётов частных – окей. Если установлен «Букинг» какой-нибудь, «Авиты», прочие приложения для продажи или есть очень много приложений для каких-то дешёвых покупок и скидок, кэшбеков – в общем, сами понимаете. Если вы сами сейчас посмотрите свои приложения…

Как не выкладывать ничего в интернет и все равно там оказаться

И.: – Или он игроман, предположим…
А. Х.: – Да, конечно, можно сразу же понять. Элементарно, в каком банке у него счёт.
И.: – Слушай, для начала давай откроем секрет для всех о том, что когда человек что-то пишет в своей социальной сети или публикует фотографию, это видят не только его подписчики.
А. Х.: – Да, это верно. Я всегда показываю такую, большую картинку, где есть портрет среднестатистического российского пользователя социальных сетей. Там он, его друзья, друзья друзей, друзья друзей до третьего колена. Это огромный объём аудитории, порядка восьмисот тысяч пользователей, которые видят иногда случайным образом контент этого человека (из-за современных интегральных лент в социальных сетях), но самая здесь большая ошибка новичка в том, что у человека может вообще не быть аккаунта в социальных сетях, но он куда-то пришёл на какое-то мероприятие, его «сфоткали», он там что-то сделал, потом это выложили, и, соответственно, некие знания попали в эту огромную базу открытых источников.
И.: – То есть он может сидеть в ресторане или быть на митинге, будучи на заднем плане какой-то фотографии – его опознает система…
А. Х.: – Спереди какая-нибудь молодая девушка сделает селфи на свою 6-мегапиксельную фронтальную камеру и, собственно, всё…

Какие данные собираются по моим фото в соцсетях

То есть мы, опять же, в данном случае с фотографией извлекаем знания об этом человеке, а потом эти знания будем сравнивать с другими полученными фотографиями, то есть «машина эта – ваша или не ваша», то есть если вы её года за полтора публиковали минимум раз пять, был один и тот же номер, марка, цвет… Она при этом не была ни на «Авто.ру», «Дром.ру», нет её среди ваших друзей – тогда мы этот автомобиль присвоим к вам.

Х.: – Да. И.: – И поймёте мой примерный достаток?
А. Они за триста метров распознают номер вашего автомобиля, передадут нам, а мы скажем, какую рекламу вам показывать.
И.: – Вы получаете данные с каждого билборда, в котором встроена камера?
А. Или потом, когда вы поедете по МКАДу и вас встретит такой большой «диджитал-суперсайд» (большой телевизор), на которых почти на всех стоит распознавание номеров автомобилей. То есть здесь с точки зрения бизнеса – решение двух задач: чтобы не показывать рекламу чего-то, с чем человек уже столкнулся; ну и, соответственно, в потоке выбрать процентов 80–90 людей со схожими интересами и показать им какой-то определённый контент. Х.: – Нет, у нас есть партнёр, один из крупнейших поставщиков наружной рекламы, у нас есть API, они передают нам номер автомобиля – мы говорим, каким контентом этот человек интересовался.

Как и зачем компании вычисляют мое местоположение

Сейчас самая живая история (не наша) – она связана с анализом «вай-фая». Во всех торговых центрах, когда человек приходит, подключается к «вай-фаю», соответственно, его mac-адрес отслеживается – мы можем понять, как человек перемещался. Это очень специфическая такая тёмная материя, потому что вроде поставщики оборудования ввели новые протоколы, которые мешают такому отслеживанию, а вроде как Apple не очень-то хорошо реализовал этот протокол, и всё равно можно эти mac-адреса реально получать – соответственно, отслеживать, как человек перемещался.

Как по моему местоположению можно вычислить мою зарплату

А потом, условно, этот торговый центр «Метрополис», в котором стоит эта система, делится данными с условным «инпо-аналитикс» (условно, оператор всех этих данных в метро). И мы можем понимать, на какой станции вы сели, на какой вышли. Соответственно, собирая о вас данные несколько дней, можно понять, где вы живёте, где вы работаете – практически для всех: то, что ближе – работа, то, что дальше – это дома. Соответственно, можно понять, живёте вы рядом с «Метрополисом» или нет, как часто перемещаетесь. Вообще, по времени захода и выхода человека в метро можно понять его стиль поведения – рабочего, студента, приезжих, мам с детьми… Ну, реально есть статистические зависимости. И, соответственно, уточняя эту выборку, мы можем понять, где какой человек работает. Плюс, ещё добавить туда его фотки с соцсетей. Потом, как только мы поймём, где он работает, можно понять примерно его должность по каким-то там параметрам; соответственно, потом сравнить это с «Хедхантером», «Суперджобом», понять среднюю зарплату для этого места, для этой должности. Таким образом, соответственно, набираются знания.

Х.: – Да-да. И.: – Предложить ему кредит на определённых условиях.
А. Можно посмотреть по «Скайсканер», сколько стоят билеты в эту дату по количеству запросов людей в место назначения, сколько стоит отель – ну и, соответственно, понять, сколько люди тратят на отпуск, как часто они путешествуют, какие у них есть свободные средства и, собственно, на основании этого делать прогнозы и так далее.
И.: – Продавать коммерческие продукты, банковские продукты.
А. Потом он поедет в какую-то страну, зачекинится там где-то, сфотографируется в том же «Фейсбуке» – «Я из Шереметьево лечу в Панаму». Либо банковский продукт, либо управление финансами, либо в налоговую его сдать, потому что у индивидуального предпринимателя карточка привязана к юрлицу, и он налоги сдаёт, скажем, на 100 тысяч, а тут новую тачку себе купил. Х.: – Да. Такое тоже есть. Вот.

Как искусственный интеллект «читает» наши фото в соцсетях и какие делает выводы

И.: – Я выкладываю в «Инстаграм» фотографию. На ней я, скажем, изображён на фоне автомобиля, около какого-то дома, я одет в определённую одежду. Как эти искусственные алгоритмы начинают смотреть на меня и что они начинают понимать?
А. Х.: – Окей, мы зашли на страницу, собрали эту фотографию. Первое, что делается – это выделяется ваше лицо, для того чтобы понять – вы это или не вы, ваш ли это аккаунт. Может, это кто-то другой сделал фотографию или вы кого-то сфотографировали. Следующий шаг – собственно, «свёрточные» сети для распознавания образов (компьютерное зрение). Наша задача понять, что есть на фотографии? Большого количества вещей понять нельзя. Нам нужно понять автомобиль, цвет, марку, ну и, соответственно, распознать номер. Можно понять цвет верхней, нижней одежды; возможно, фасон; возможно, с точностью 70–80% стиль причёски. Как-то так. Если это селфи сделал человек, то можно цвет глаз определить.
И.: – А причёску как мы можем использовать?
А. Х.: – Ну, длину волос… Ой, вы знаете, «бьюти»-бренды с ума сходят по этому. Шампуни какие-то продают определённым женщинам, с определённым цветом волос.
И.: – Название бренда шампанского на столе можно определить?
А. Х.: – Да. Можно не только бренд шампанского определить. Можно определить, что это за алкоголь. То есть бокал вина можно определить. Если бутылки нет – марку не определить. Но для большинства алкоголя бутылки специфические – там, «Джек Дэниелс» с определённой формой… и так далее. По образам можно понять, что это такое было и составить выборку о том, что люди пьют. Есть очень много коммерческих клиентов, которые просят найти людей, которые любят устраивать вечеринке дома с «Кока-Колой» и «Джеком Дэниелсом», например; а потом что-то с ними делают. Как-то так.

Он думает: «О, как круто! То есть человеку бренд дарит какой-то подарок. А на самом деле всё это было не случайно. Меня случайно выбрали»! Был оценен его потенциал привлечь новую аудиторию, связи, скорость распространения контента, 50 разных метрик.

Что искусственный интеллект думает о достатке Тимати, глядя на его фото с Lada Priora

 
И.: – Слушай, я предлагаю тебе небольшую игру. Я тебе покажу популярных, или типичных для «Инстаграма» фотографии, а ты расскажешь, что может увидеть искусственный интеллект на них и какие выводы сделать. Начнём: первая.

Х.: – Я думаю, стиль одежды, марку автомобиля, место можно понять. А. Можно понять 100 %, что это парковка. Тут, я вижу, есть огнетушитель. Я бы на месте искусственного интеллекта 100% его записал бы в таксисты. Парковка супермаркета, судя по фотографии, судя по пакету. Х.: – Да-да-да. Но, «смэтчив», скажем так, его внешний вид (имеется в виду одежда), марку автомобиля и синие пакетики, он бы попал в определённый класс населения с доходами 50–80 тысяч…
И.: – Микрокредиты, автомобиль недорогой…
А.

Как можно собирать данные о человеке, который еще не родился

И.: – Одна из самых популярных в «Инстаграме» фотографий – она была первой до прошлого года, когда появилось ещё что-то более популярное.

Х.: – Ну, здесь всё понятно. А. Алгоритм оценит месяц этой девушки либо по фотографии, либо скорее всего по… Беременные хоть раз делают текст типа «Ребята, мы на третьем месяце» или «Ждём чуда». Здесь главный вывод, который будет сделан – это беременность. Х.: – Да-да. Но то же самое можно сделать по фотографии.
И.: – По тексту или объёму живота можно определить месяц?
А. Есть очень небольшая выборка медицинская, сделанная… Для чего это делается: мы определяем дату предполагаемых родов. Да. Х.: – Да-да. Соответственно, мы будем знать, когда ребёнку будет полгода, восемь месяцев, год, два, три, пять…
И.: – И двадцать пять!
А. Но что самое главное, некий задел на будущее, мы уже будем знать дату рождения ребёнка. И в каждый из этих моментов маме будет предлагаться определённый материал: детская одежда, памперсы для двухлетних, для двухмесячных и так далее, и тому подобное. Он ещё не родился, а у нас уже появились на него некие знания. Сначала плюс-минус, но затем, если сделают уточняющую дополнительную публикацию – мы уже начали собирать данные об этом ребёнке. Это на самом деле, конечно, ужасающая история с точки зрения, не знаю… чёрного зеркала.

Какие данные собираются с фото Рамзана Кадырова

И.: – Что можно понять по этой фотографии?

Х.: – На самом деле здесь люди сразу же наберут свой «вес экстремизма» за счёт оружия. А. То есть у них сразу галочка появится, что они «сфоткались» с оружием. Распознавание оружия на фотографии, мгновенное распознавание оружия на фотографии очень часто используется в «сториз», во всём-всём-всём. Вроде-то как огнестрельное оружие у нас запрещено. И если этот человек наберёт некий уровень опасности, то эти сигналы сразу будут отправлены в органы, контролирующие оборот оружия, потому что… Это же «Калашников», правильно я понимаю? Да, несколько людей. Ну, тем не менее. Х.: – Ага, окей. Я не знаю, есть тут аватарка у пользователя, нет?
И.: – Пользователь – собственно сам Рамзан Кадыров, но он удалил свой профиль.
А. Вот этот автомат распознать нельзя, а этот «Калашников» точно можно.
И.: – А если это игрушка будет?
А. Ну, это в истории, соответственно, всё останется. У игрушек, как правило, ремень не такой зелёный… Я не специалист в этом. Х.: – Ну, есть всё равно специфические вещи. Здесь, мне кажется, какой-то рожок модифицированный, то есть там порядка десяти тысяч параметров есть различных по распознаванию оружия… Надрезанного, модифицированного – как-то там ещё… Я не спец в этой области. Знаю, что у нас достаточно хорошо заточено распознавание оружия.

Почему фотографироваться с чужими машинами – это плохо

И.: – Девушка с дорогим классическим автомобилем.

Х.: – С дорогим классическим автомобилем, у которого нет номера. А. Но здесь явно видно – есть алгоритмы, которые распознают горизонт по полу. Скорее всего, модель автомобиля можно будет распознать. Вижу, что здесь по заднему фону можно понять, что это за страна, потому что это специфический язык. То есть здесь явно видно, что автомобиль находится явно выше пола, то есть он попадёт в экспонируемые, плюс здесь нет номера, плюс это скорее всего единственная фотография с этой машиной и скорее всего эта же машина есть на других фотографиях в этой геолокации, поэтому она не будет распознана как её. Плаца де Скопице… Ну, это что-то такое. Я понимаю, что это – какая-то Чехия, нет? Всё, больше о человеке сказать нельзя, кроме как об одежде и так далее. По тексту, по лингвистике можно понять, что это за страна, если там геометки нет. Как-то так. Но это, опять же, отдых такого, условно городского типа, туриста, который любит путешествовать. Не знаю почему, но статистически, как правило, вот так происходит.
И.: – Следующий. На самом деле люди, которые фотографируются подобным образом с дорогими подарками, с дорогими машинами, им всегда занижается уровень достатка. «Инстаграм».

Что нам говорит Инстаграм Медведева

Х.: – Двое мужчин. А. Это обычные люди. Первое, что мы должны будем определить – чей это аккаунт. Что эти люди отдыхают на природе – это очень частая категория для людей, которые любят отдыхать на природе. Отсюда какое знание будет получено? У них сезон дач – им, не знаю там, видеонаблюдение продают, юридические услуги. Соответственно, они могут попасть в весьма странные сегменты – например, дачники. У Владимира Путина нет «Инстаграма» и нет общедоступных данных.
А. Ну, в общем, у дачников есть некий свой паттерн поведения.
И.: – Ты сказал: определить владельца аккаунта. Ну, если бы это был не Владимир Путин, а какой-то другой человек, которого, скажем, его друг сфотографировал, то о нём его знания тоже появились бы. Х.: – И вот он бы тоже попал в дачники.

Что мы можем узнать о Путине через соцсети

И.: – Если мы проанализируем информацию о нём, известную в сети, с помощью всех возможных алгоритмов, что бы мы могли получить, что бы мы узнали о Владимире Путине по итогам этого исследования?
А. Х.: – Мне кажется, мы узнали бы слишком много на самом деле. Стоимость (имеется в виду в машино-часах) обработки всей информации, которая есть о Владимире Путине, превысила бы коммерческую эффективность данного запроса.
И.: – Но если мы возьмём и проанализируем людей, которые на его фотографиях присутствуют, какие-то предметы и так далее, мы сможем сопоставить эти данные и получить какой-то интересный результат, как ты думаешь?
А. Х.: – Вряд ли интересно именно по Владимиру Владимировичу, но мы проводили такие исследования много раз по разным чиновникам (я потом могу вам показать пример исследования) следующим образом: мы брали десять тысяч самых крупных государственных закупок «Нашей России», людей, которые эти закупки размещают, производят; и вот там по фотографиям, по связям пытались построить карту (у меня есть такой проект – «Интерактивная карта») из тех десяти тысяч госзакупок – там очень интересно (я вам потом покажу). Там все люди сгруппированы в такие кучки, кластеры, и вот они торгуют только между собой. Почему-то вот совпало их наличие на всех возможных фотографиях, яхтах, связях и так далее с тем, как они размещают государственные закупки. Уж почему так получилось, мы не знаем.

Куда продают наши данные и для чего

И.: – Мы выяснили, что эту информацию можно взять из сети. Как её можно использовать?
А. Х.: – Есть множество разных кейсов – хороших, плохих и так далее. Большинство людей на первом уровне пытаются собрать некие контактные данные, собрать условную спам-базу, продать её кому-то там, куда-то там и так далее. Чуть более честные ребята второго уровня – они собирают какую-то информацию, делают аналитику, продают эту аналитику. Мы перешли на условный третий уровень – мы продаём знания. То есть мы не продаём какие-то выгрузки каких-то там комментариев публикаций, мы не продаём контактные данные конкретных людей, мы собираем всё вокруг какого-то события, мероприятия, географической точки и извлекаем оттуда знания. Кто были эти люди, как часто они путешествовали, какое порно они смотрели, есть ли у них собаки, квартиры, машины, жёны, дети и так далее. И вот эти знания уже продаём без привязки к конкретным людям.

Можно ли установить ориентацию человека по данным из соцсетей

И.: Или делаете из них какие-то определённые выводы. Если практически к этому подойти, можно ли, например, установить, условно говоря, сексуальную ориентацию человека, который её не афиширует, и узнать соотношение в обществе? В процентном соотношении.

Х.: – Можно, да. А. Это одна из запретных метрик, которую мы не передаём клиентам.
И.: – Но какие алгоритмы для этого могут быть использованы? На самом деле это очень легко делается, потому что люди (я просто очень много проводил таких экспериментов по «Тиндеру» и по прочим социальным сетям для знакомств)… Люди, как правило, группируются в кластеры, и даже если они внешне скрываются, можно понять, кто с кем как коммуницирует внутри этих кластеров. Какие данные для этого могут быть использованы?

Как по лайкам человека понять о нем все

А. Х.: – Самая основная, наверное, история – это контент, который человек потребляет. Это лайки. Все сейчас считают, что их никто не видит. А это действительно так, и нельзя никаким техническим методом получить лайки какого-то конкретного пользователя, не собрав весь контент, который находится в социальной сети. Для решения конкретно этой задачи достаточно какого-то узкоспециализированного контента – например, вы возьмёте и соберёте всё порно во «Вконтакте», крупнейшем порно-трекере и, соответственно, посмотрите, кто его лайкал (а для «Вк» это примерно каждый восьмой пользователь лайкает порно – до сих пор мы не понимаем почему). Соответственно, потом на основании этого можно всех людей условно сегментировать, скажем так, по интересам.

Там было очень смешно: где-то 70–75 человек засветились в такой, нелицеприятной активности – кто-то Навального лайкал, кто-то – «Роспил», кто-то – детскую порнографию. Мы два или три года назад с «Лайфом» проводили такое исследование, когда был «праймериз» «Единой России», и они обязали всех ребят, которые собираются пойти в «Единую Россию» (4400 кандидатов)… Где-то на 600 из них подали свои аккаунты в социальных сетях – мы посмотрели, какое порно они лайкают. В общем, это было смешно.

Потому что сейчас люди не понимают, что то, что говорится в открытом доступе – оно действительно в открытом доступе, и ты это никак не сотрёшь оттуда, никак не избавишься. Всё это ведёт к тому, что мы пытаемся пользователям объяснить: что бы вы ни делали, всё это попадёт в открытый доступ.

Если раньше гадалка гадала по руке, то теперь вы берёте, анализируете лайки и получаете анализ предпочтений. И.: – То есть люди думают, что они рассказывают о себе в профиле в своей социальной сети, а больше можно узнать по тому, как они лайкают?

Х.: – Да, по употреблённому контенту можно понять всё, что угодно. А. И самое главное, что с точки зрения бизнеса на основании этого можно сделать прогноз: какой продукт человек купит через неделю, месяц, полгода, год. Кто этот человек: домохозяйка, мама с ребёнком, какие у неё интересы вообще? Да, или это, например, молодая девушка, которая зашла, скажем, на сайт интернет-магазина, её идентифицировали, мы знаем все её фотографии за последние пять лет в «Инстаграме», какого цвета верхнюю и нижнюю одежду она одевала, в какую погоду, в каком эмоциональном окрасе и так далее – и. Вот, у нас есть мужчина, у него только что родился ребёнок, мы знаем, что у него есть машина – мы ему сразу предлагаем детское кресло. собственно, предлагаем ей идеальный вариант.

Как узнать телефон человека

И.: – Я понимаю, что вы не используете эту информацию в открытую, не передаёте, но можно ли узнать более, скажем так, интимные данные о человеке – узнать номер телефона, хотя он нигде его не выкладывает у себя в профиле, узнать, как он передвигается по городу, где он находится в данный момент.

Х.: – Можно. А. Я вам такую историю приведу: мы когда-то давно делали исследование под надзором компетентных органов: значит, дали «скрипту» денег, чтобы он закупил наркотики у разных ребят – в «Торе» там, в «Телеграме» и так далее. Первая история, связанная с номером телефона: все всегда попадаются на каких-то досках объявлений – это реально бич всех. Х.: – Да, конечно. Но только у тех, у кого из них был известен номер телефона, и этот номер телефона можно было как-то деанонимизировать.
И.: – «Скрипт» – это автоматический робот?
А. Но они на «Авито» что-то продавали! Соответственно, большинство вот этих вот начинающих наркобарыг погорели на следующем: у них номер телефона реально чистый, не привязанный ни к чему, ни к соцсетям. Ну и, соответственно, кто они. Поэтому можно понять, где они территориально находятся, потому что все рядом со своим местом жительства продают. Ну и, соответственно, мы потом сопоставляли места, где они живут, и места, куда они ездят оставлять «подарочки». Потому что по тем товарам, которые человек продаёт, тоже можно сделать некие предположения о том, кто этот человек.

Как помогать родителям контролировать детей в соцсетях

Мы однажды запускали проект по анализу действий несовершеннолетних (родительская опека). Тогда он ещё назывался «Родительский контроль. Мы себе выбрали тогда такой смешной слоган: «Лучше мы, чем ФСБ». На самом деле была абсолютно благая идея: мы собирались предупреждать родителей несовершеннолетних о том, что ребёнок какую-то непотребщину производит. У нас сейчас около семисот тысяч несовершеннолетних ежедневно пишут какую-то хрень, за которую к ним могут прийти и по головке их не погладить: хачей сжигать, стёкла бить и так далее. Мы подумали (как разработчики госалгоритмов зная, какой уровень некой «экстремистости» должен набрать человек до того, как государство проведёт с ним некое целевое действие), что правильнее предупреждать родителей. Ну, в общем, сторонники Навального, в частности Алексей Булков, не очень правильно восприняли эту новость – в «Фейсбуке» написали кучу всякого гнева. Было смешно, но когда ты получаешь 5-тысячный комментарий «Когда Навальный станет президентом – такие, как ты, будут сидеть в тюрьме», как-то не очень комфортно…

То есть они – вот, сволочи, из Сколково будут собирать личную переписку, геоперемещения… Ну, там по каждому пункту… Мы к Сколково вообще никакого отношения не имеем. Но на самом деле мы к этому спокойно относимся, потому что люди просто не понимают, что происходит. Ну, в общем, какие личные сообщения? Какие геоперемещения, какие «чекины»? В общем, как-то так.

Х.: – Да, на самом деле вся эта история «стартанула» сначала из исследования: мы решили взять 30 тысяч случайных несовершеннолетних, которые совершают какую-то непотребщину, найти их родителей и написать ботами их родителям: смотри, твой ребёнок написал, что завтра пойдёт сжигать хачей (и там какая-то цитата и так далее). И.: – Типа, взрослых кошмарят на митингах, и вот, за детей взялись… Какие-то были интересные результаты «Родительского контроля»?
А. А мы абсолютно мирные, честные посылы написали: обратите внимание, данный материал в реестре запрещён и так далее, и тому подобное. Ну, в общем, где-то 99,8% родителей нас послали в жопу и сказали: вы вообще кто такие, что вы делаете? Мы поняли, что у нас люди очень любят истерить по поводу паранойи – государство лезет в трусы, но на самом деле они настолько халатно относятся к своим данным, что очень сложно им что-то объяснить. В общем, нас все послали в жопу. Просветительская работа – она самая мерзкая, самая неблагодарная.

Как производители фитнес браслетов и смартфонов зарабатывают на данных о своих клиентах

И.: – А правильно ли я понимаю, что некоторые компании, как «Джабон», которая делает браслеты для активности…
А. Х.: – Финтес-трекеры.
И.: – «Хуавей», которая делает смартфоны… Помимо продажи гаджетов, они очень хорошо зарабатывают на том, что знают о своих клиентов очень много и продают их?
А. Х.: – Да, продают, как правило, знания об этих людях среднестатистические, начиная от американского Минздрава, заканчивая «мэтчингом» этих данных с «Фейсбуком» по привязанным аккаунтом и продаже этих историй рекламным площадкам. Это тоже вроде как не очень этичная история, но с другой стороны, как бы проблема здесь в людях, которые не читают соглашение. В соглашении написано, когда и кому будут передаваться данные, в каком объёме.

Как невинный гаджет раскрыл расположение американских военных баз

Но ещё был такой интересный кейс (не знаю, сталкивались ли вы). Есть такое приложение «Страва» – это фтинес-трекер. Они в начале этого года сделали очень крутой проект. Они сделали карту: весь мир — гигантская тепловая карта того, как люди бегают, катаются – в общем, треки, их фитнес-треки. И на самом деле компания даже не подумала о том, скольких людей они засветили. Все военные базы секретные США в Сирии, Ливии были подсвечены.

Х.: – Да. И.: – То есть по карте это официально просто пустыня, в которой…
А. Получается, что они «спалили» кучу военных баз в Америке и так далее. В какой-нибудь сирийской или ливийской пустыне, где как бы ничего нет, там есть такие треки людей, которые каждый день там бегают очень и очень активно. Это всё очень быстро подчистили, но тем не менее вот такой интересный прецедент был.

Приложения для знакомств – самый надежный источник приватных данных

И.: – Тот же самый «Тиндер» – один из самых любимых источников информации для вас.
А. Х.: – Мой, да. Потому что там есть реальные интересы людей – можно по фотке «смэтчить» «Фейсбук» собственно с «Тиндером», и там вообще есть информация, что этому человеку реально интересно, что он делает и так далее: люблю охоту, рыбалку и… как-то так. Есть очень много систем, которые прогнозируют явку на выборы, политические предпочтения, кто за какую партию проголосует. Здесь, единственное, есть момент о том, что у нас большое количество электората – оно не очень цифровое. Как-то так. Но даже о них можно некие знания понять. Там… Кто где в ЖКХ ругался, судился с кем.
И.: – По каким данным?
А. Х.: – Открытый Госреестр и Госправосудие, Суд РФ. У нас судебная практика почти полностью открыта. Там не очень качественные данные, но они открыты. Есть там… служба судебных приставов, жёлтые страницы, сайты ЖКХ региональных. Отовсюду можно собрать кусочки информации.

Как данные из соцсетей могут повлиять на российскую политику

И.: – Но самое простое – это сбор информации про людей с оппозиционными взглядами, насколько я понимаю? Они молоды и активны.
А. Х.: – Да, конечно, есть такое.
И.: – Как ты думаешь, как это в будущем может изменить общероссийскую политику – использование Big data?
А. Х.: – Думаю, что вряд ли особо сильно как-то. Поясню почему: потому что в данной ситуации всем понятно, кто у нас выборы выигрывает – не потому, что они нечестные, а просто потому, что вот так большинство голосует. Поэтому здесь единственное, для чего могут быть использованы Большие данные – думаю, для повышения явки и как-то правильной работе с лидерами мнений, сегментация, агитация. Сейчас очень много приходит запросов на предвыборные кампании мэра в Москве. Ну, всем понятно, кто мэром станет – не потому, что куплено, коррупция – все проголосуют за Сергея Семёныча, с этим ничего не сделать. И у остальных кандидатов задача набрать минимум какой-то или, как в Госдуму, они процент какой-то должны набрать. Вот, как-то так.

Значение сбора данных из соцсетей в победе Трампа

Но такого успеха, конечно, как у президента США, вряд ли здесь удастся добиться: во-первых, потому что у нас вот такая вот выборная система; а во-вторых, я не очень-то верю в успех президента США. Я думаю, 30-40% ему реально микротаргетинг принёс, но не космическую победу.

Х.: – Там всё было на самом деле очень просто. И.: – Расскажи, что там за алгоритмы могли быть использованы?
А. Была куча тестов в «Фейсбуке», какой-то «пирожок»… Ну знаете, их полно. Все сейчас пинают «Кембридж-аналитику» за то, что они якобы что-то где-то нарушили, но по сути дела никто не сидит в тюрьме по очень простой причине: потому что законы нарушены не были. А там всё чётко: данные их используются для продажи на рекламную платформу. Люди проходят эти тесты и никогда не читают лицензионные соглашения. Но там важно, не за кого человек будет голосовать – важно понять, какая у него проблема: мексиканец, который боится не получить работу или американец, который боится её потерять из-за мексиканцев – эти люди группируются в маленькие группки, и потом условный президент в виде таргетированной рекламы этим людям говорит: мы вам поднимем зарплату, а вам отменим обамовское здравоохранение, вам запретим (мексиканцам) работать, вам – разрешим (мексиканцам) работать. Люди проходят абстрактные тесты, какой-то пирожок или какой-то хлебушек, красный или синий, – на основании этого они делают психометрические выводы, за кого человек будет голосовать.

То есть это такой условный микротаргетинг, который показывает каждому человеку не двухчасовую прямую линию с президентом, а какие-то определённые моменты, то есть реальные проблемы, которые президент собирается решить.

Можно ли предсказывать преступления и искать преступников через соцсети

И.: – Скажи, пожалуйста, как вы ищите антисоциальные какие-нибудь элементы – педофилов, маньяков, убийц? Можно ли вообще предугадать, что это случится, что человек совершит преступление, или как его эффективно предотвратить?

Х.: – Тема предотвращения преступлений сейчас – одна из самых активных в мире. А. Основной из кейсов, который у нас есть – это система для расстановки ППС. Мы очень активно вкладываемся в эту историю, пытаемся её трансформировать. Фанатов ли мы хотим оприходовать, либо мы хотим снизить уровень криминогенной активности (кражи, насилие), или хотим наркобарыг поймать. Это алгоритм, который с утра «генерит» информацию, куда нужно поставить патрульно-постовую службу в зависимости от задачи. То есть мы собираем определённый набор данных, делаем из этого выводы, смотрим на нашу какую-то статистику историческую и говорим: сюда, сюда, сюда, в такое-то время, ехать они должны таким-то образом; и наш некий целевой показатель снижаем.

Ну, где-то 7–8% — мы снижали криминогенную активность где-то – это кражи домашние, это уличные грабежи. Наш максимум в Подмосковье… Сколько мы делали? Это максимальный показатель, которого нам пока удалось добиться.

Сделать с ними он ничего не может. Что касается маньяков и всех прочих ребят, когда мы встраиваемся в процесс добора каких-то дополнительных улик – здесь стандартный кейс такой: вот есть среднестатистический следователь, на него пришло какое-то убийство; всё, что он может потребовать с мобильного оператора, когда пройдёт суд и полтора года после суда – это он получит, не знаю… 300 тысяч номеров мобильных телефонов вокруг какой-то конкретной геоточки. А все остальные, может, мимо просто на машинах проезжали. Он загружает эти номера к нам, мы, соответственно, можем оставить из них 5–7 людей, которые были как-то связаны, находились рядом с ними, можно поговорить с ними и так далее.

Вот сейчас, перед чемпионатом у нас стадионы покупают системы удалённой идентификации, для того чтобы: когда отбитый фанат заходит на сайт – и ему говорят – билетов нет, или он приходит потом на стадион, его там распознают – и его не пускают, потому что он написал у себя в «Инстаграме», что «завтра идём мочить русских», там, на «Локомотиве»… Вот как-то так. Есть ещё история, связанная с фанатами, тоже очень популярная история.

Мы где-то четыре года назад начали этим заниматься: сделали ботов, которые путешествуют по интернету, общаются со взрослыми мужиками на форумах определённых и пытаются как-то с ними пообщаться и какие-то факторы выделить их поведения, запросы и так далее. Что касается педофилов, мы достаточно давно, к сожалению, в этой теме, и там есть одна очень большая проблема. А главное, что по текущему законодательству человека нельзя посадить за лайки в соцсетях, и это хорошо, подчёркиваю – хорошо. Это работало слишком хорошо: слишком много людей было найдено – столько людей наша правоохранительная система через себя пропустить не может. То есть в данном случае мы можем только сгенерировать рекомендацию, и дальше участковый должен как бы пойти и кого-то за руку поймать. И как бы нельзя человека посадить за намерение совершить какой-то акт. А это, сами понимаете, работает в 100 тысяч раз медленнее, чем работает алгоритм.

Можно ли навсегда удалить свои данные из интернета?

И.: – Могу ли я вообще удалить что-то из интернета или это абсолютно?..
А. Х.: – Это практически невозможно, потому что необходимо будет общаться с каждым владельцем каждого ресурса. Есть так называемый закон о забвении, который вроде обязывает всех это делать, но юридически он распространяется только на поисковые системы. У нас лично есть форма на сайте для удаления данных о себе, но нельзя нам в дальнейшем запретить эти данные о людях собирать, потому что законодательство текущее не очень хорошо работает.

Как соцсети могут помочь утечке моего пароля?

Такая есть ещё интересная статистика: в начале этого года Международная ассоциация банков делала очередной обзор о информационной безопасности – у них был такой интересный показатель: возросли в шесть раз кражи с денежных счетов, когда был взломан секретный пароль. То есть: вы сейчас подумайте о своём секретном пароле… Что у вас там стоит – кличка животного девичья фамилия матери и подумайте о том, могу ли я узнать эти данные из открытых источников? Могу ли я узнать кличку домашнего животного, любимое блюдо или девичью фамилию матери из открытых источников. Соответственно, я могу зайти в банк, восстановить пароль и взломать ваш банк. Вот, Европейская ассоциация – у них в 6 раз увеличились кражи именно по этой статье, потому что люди ставят ответ «кличка домашнего животного», а потом пишут в «Фейсбуке» кличку домашнего животного. Собственно, вот как-то так. Мне кажется, через пять лет кошмар совсем будет происходить, потому что текущее поколение – они не понимают, что соцсети – это навсегда, что это открыто, что если сейчас какая-то девушка станцует пьяная на столе, а через 20 лет она станет классным руководителем, то все дети смогут найти это видео из архивов и потом начать шантажировать.

И.: – Ты себя не чувствуешь таким… злым гением немножко, потому что ты обрабатываешь данные людей всё-таки не в интересах их самих, а такого условного «большого брата»?

Х.: – Есть такое на самом деле, да, но у меня есть такая отмазка, которой я собственную совесть успокаиваю: возьмём, например, кейс – человек уволен за то, что он набухался (это реальная абсолютно история), человека уволили (ну там, пьяный в сториз выложил и его спалили и уволили). А. Я в этом случае бренд «Калашников» – можно тысячу людей убить карандашом, а можно расстрелять их из автомата; плохо, печально, но я, как инженер, придерживаюсь концепции, что не оружие убивает людей, а люди. Моя концепция следующая: если работодатель захочет за ним следить – он за ним будет следить, по открытым источникам или по закрытым источникам; если государство хочет следить за человеком, оно может это сделать любым образом – оно может прослушку ему поставить, а может посмотреть его публичные фотографии. Вопрос в том, кто эти данные получит и как он ими будет распоряжаться.

Они считают (цитирую с комментариев в «Фейсбуке»): «Так же и Гитлер оправдывался»! Но, конечно, все с моей концепцией не согласны. или «Так же, типа, эссесовцы оправдывались!» Те данные, которыми мы оперируем – люди сами их отправили в открытый доступ; мы просто научились из этого извлекать факты.

Как приложения для знакомств станут более эффективны

И.: – Мне кажется, вы можете заработать ещё больше денег, если просто будете искать пару для людей идеальную на более крутом уровне, чем это делает «Тиндер» или кто угодно.
А. Х.: – Да, ждите конца года – мы сейчас работаем над приложением для знакомств.
И.: – То есть люди всё-таки будут счастливее, счастливы?..
А. Х.: – Моё идеальное приложение для знакомств – это не «Тиндер», не «магазин мяса», мой идеальное приложение – это когда ты зашёл, авторизовался соцсеточкой (мы получили минимум информации) и тебе сразу же предложили идеальных кандидатов. Наша главная в этом случае проблема – определить текущую эмоциональную, психическую стадию человека, чтобы понять, кого ему конкретно подбирать. Что ему сейчас нужно: секс на один раз, любовь всей жизни, ну и так далее. Мы уже достаточно долго работаем над этим вопросом.

Неожиданные результаты исследований проституток

И.: – Слушай, как можно опознать человека, которому нужен секс на один раз по его социальным сетям, по фотографиям?
А. Х.: – Фотки… Ну, сложно сказать. Есть такое среднестатистическое, может, у кого-то представление: фотки алкоголя – одинокий холостяк, просмотр порно… Давно мы делали исследование: мы брали 20–30 тысяч проституток со всяких разных сайтов, по фоткам их «мэтчили» в соцсетях и делали исследование, какие ВУЗы они заканчивали. Ну, соответственно, смотрели, как они с людьми коммуницируют.
И.: – То есть вы искали зависимость между образованием и их положением?
А. Х. – Да. Нет никакой зависимости на самом деле. Вообще. Как в МГИМО есть такие девушки и мальчики так и в каком-нибудь урюпинском ВУЗе. Нет никакой зависимости.
И.: – Это народная профессия?
А. Х.: – Да. Древнейшая народная профессия.

Сериал в тему

После прочтения интервью невольно вспоминается сериал — Person of Interest. Рекомендуем всем его к просмотру.

Быть может будущее уже наступило и мы все в поле зрения, подозреваемые.

Немного рекламы 🙂

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2. 2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. Dell R420 — 2x E5-2430 2. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть