Хабрахабр

[Перевод] Забудьте о приватности: у вас всё равно ужасный таргетинг

Мне не жалко позволить вашим программам изучить мои личные данные, если в обмен на это я получу что-то полезное. Но такого обычно не бывает.

Это заявление может шокировать, но люди, занимающиеся сбором и анализом данных, сталкивались с этим. Мой бывший коллега сказал мне: «Все обожают собирать данные, но никто не любит их потом анализировать». Мы будем отслеживать, как долго они размышляют над определённым выбором! Всё начинается с гениальной идеи: мы будем собирать информацию о каждом клике, который человек делает на каждой странице приложения! Сколько секунд они смотрят наше вводное видео перед тем, как отключить! Как часто они используют кнопку «назад»! Сколько раз они делятся нашим постом в соцсетях!

Отслеживать-то просто. И они всё это отслеживают. Добавьте логи, сбрасывайте их в базу данных, и вперёд.

Ну, а дальше это всё придётся анализировать. А дальше-то что? Почти никогда нельзя сделать простых выводов, только сложные – а сложные выводы подвержены ошибкам. И как человек, анализировавший множество наборов данных, относящихся к различным вещам, я могу заявить: работа аналитика трудная и по большей части неблагодарная (за исключением зарплаты).
Проблема в том, что практически нет способов подтвердить вашу правоту (а также не очень ясно само определение правоты, о чём ниже). Или к таким, которые мы считаем правильными. О чём аналитики не говорят, так это сколько неправильных графиков (и, соответственно, выводов) делается на пути к правильным. Возможно, поэтому газеты, журналы и лоббисты публикуют столько обманчивых графиков. Хороший график настолько убедителен, что почти неважно, правильный он или нет, если вам просто надо кого-то убедить.

Сделаем весьма нереалистичное предположение, что мы очень хорошо справляемся с анализом всякого-разного. Однако отложим на время ошибки. Что дальше?

Ведь именно так все и делают! Ну, давайте-ка обогатимся на целевой рекламе и алгоритмах персональных рекомендаций.

Или нет?

На сегодня самой первой рекомендацией будет статья с привлекающим клики и вызывающим яркие эмоции заголовком по поводу кинозвёзд или о том, что Трамп сделал или не сделал за последние 6 часов. С персональными рекомендациями всё обстоит удивительно хреново. Я не хочу это читать или смотреть, но иногда это всё равно меня засасывает – и тогда добро пожаловать в апокалипсис рекомендаций, теперь алгоритм считает, что мне нравится читать про Трампа, и теперь Трамп будет везде. Или не статья, а видео или документалка. Никогда не давайте ИИ положительную обратную связь.

Никакой магии тут нет. Это, кстати, ужасный секрет сторонников машинного обучения: почти всё, что выдаёт МО, можно получить гораздо дешевле при помощи тупейшей эвристики, запрограммированной вручную, поскольку МО в основном тренируется на примерах того, что делали люди, следуя по пятам за тупейшей эвристикой. Если вы спросите компьютер, какое видео человек хочет посмотреть, он порекомендует какой-нибудь пропагандистский политический мусор, поскольку в 50% случаев 90% людей это на самом деле смотрят, будучи не в состоянии совладать с собой – а это довольно неплохой процент успеха. Если вы будете обучать компьютер при помощи МО отбирать резюме, он будет рекомендовать вам на интервью мужчин с именами белых людей, поскольку ваш HR-департамент уже так и делает.

Это прекрасно, но все шансы за то, что ваше любимое МО-приложение станет дорогой заменой тупой эвристики. Отмечу, что существует несколько примеров прекрасного использования МО для того, с чем традиционные алгоритмы справляются плохо – обработка изображений или выигрыш в стратегических играх.

А ещё кто-то сказал, что эту ситуацию можно обернуть и сделать детектор порнографии: любая ссылка с высокой кликабельностью, вне зависимости от запроса, скорее всего ведёт на порнографию. Человек, работающий с веб-поиском, сказал мне, что у них уже есть алгоритм, гарантирующий максимальное соотношение кликов к просмотрам для любого поиска: нужно просто выдать страницу со ссылками на порно.

Иначе говоря, звездулек (в идеале красивых, или хотя бы спорных), политиков или то и другое. Проблема в том, что прилично выглядящие предприятия не могут постоянно отдавать вам ссылки на порно, это же «небезопасно для просмотра на работе», поэтому работа большинства современных рекомендательных алгоритмов заключается в том, чтобы вернуть что-то, максимально близкое к порно, но при этом «безопасное для просмотра на работе». Иногда они пересекают эту линию, им приходится извиняться или выплачивать символический штраф, а потом всё возвращается на круги своя. Они подходят к этой границе как можно ближе, поскольку это – локальный максимум их доходности.

И, возможно, человеческая природа. Меня это расстраивает, но и фиг с ним, это всего лишь математика. Да фиг с ним, мне это может не нравиться, но я могу это понять. И капитализм.

Я жалуюсь на то, что ничего из вышеперечисленного не имеет отношения к сбору моей персональной информации.

Самые горячие рекомендации не имеют ко мне никакого отношения

Давайте скажем честно: самой лучшей таргетированной рекламой будет та, которую я получу от поисковика, выдающего мне ровно то, что я искал. И все в плюсе: я нахожу, что искал, продавец помогает мне купить его товар, поисковик получает деньги за посредничество. Не знаю никого, кто жаловался бы на подобную рекламу. Это хорошая реклама.

И она тоже не имеет никакого отношения к моей личной информации!

Даже сегодня человек может использовать любой поисковик, не входя в свою учётную запись. Google уже больше десяти лет выдаёт контекстную рекламу на основе поиска, ещё до того, как они начали просить меня залогиниться. Прекрасный бизнес. И они до сих пор выдают рекламу на основе поисковых запросов.

Я иногда играю в игры, использую Steam, и иногда просматриваю игры на Steam и отмечаю те, что планирую купить. В моём случае хорошо работает ещё одна реклама. Все в плюсе: я получаю желаемую игру (со скидочкой!), производитель игр получает деньги, Steam получает оплату за посредничество. Когда на эти игры начинается распродажа, Steam шлёт мне письмо с уведомлением, и иногда после этого я их покупаю. А ещё я, если захочу, могу запретить слать мне эти письма – но я не хочу, поскольку это хорошая реклама.

У Steam есть моя учётная запись, я сказал, какие игры я хочу, а сервис мне их продал. Но никому не пришлось строить мой профиль для этого? Это не построение профиля, это просто запоминание списка, который я сам предоставил.

Это тоже полезно, и тоже не требует создания профиля, кроме как запоминания транзакций, которым они и так занимаются. Amazon показывает мне уведомление с предположением о том, что я, возможно, захочу снова купить кое-какие расходные товары, которые я покупал в прошлом. И опять все выигрывают.

Это полезно примерно на 20%. Amazon также рекомендует продукты, похожие на те, что я покупал, или продукты, которые я изучал. Но несколько дней после покупки электроники они также предлагают мне купить USB-кабели, что, скорее всего, правильно. Если я только что купил монитор для компьютера, и вы знаете, что я это сделал, поскольку я купил его у вас, вы можете прекратить пытаться продать мне мониторы. Надо отдать должное Amazon за создание моего полезного профиля, хотя это просто профиль того, что я делал на сайте, и они им ни с кем не делятся. Так что ладно, 20% пользы в таргетинге лучше, чем 0% пользы. Никто не удивится, что Amazon помнит, что я купил у них или что смотрел. Это не кажется вторжением в личную жизнь.

А решают они это потому, что я зашёл к ним на сайт и что-то посмотрел. Получается хуже, когда продавцы решают, что я могу что-нибудь захотеть. И они это делают, даже если я это уже купил. Тогда их рекламные партнёры гоняются за мной по всему вебу, пытаясь мне это продать. Продавец не раздаёт информацию обо мне и моих транзакциях своим рекламным партнёрам (поскольку в ином случае все шансы за то, что с юридической точки зрения они попадут в беду), поэтому рекламный партнёр не знает, что я купил товар. Ирония в том, что всё это происходит из-за неуверенных попыток защиты моей приватности. Он знает только (из-за трекера от партнёра, установленного на сайте продавца), что я смотрел на предмет, поэтому продолжают рекламировать мне его просто на всякий случай.

У рекламщика есть трекер, который он помещает на разные сайты, чтобы меня отслеживать. ОК, теперь мы подбираемся к интересной теме. Он не знает, что я купил, но знает, на что я смотрел, возможно, даже долгое время и на многих сайтах.

Используя эту информацию, его старательно обученный ИИ делает заключения о том, на что ещё я могу захотеть посмотреть, на основе…

Людей, похожих на меня? А на основе чего? Какой-то сложной матричной формулы, которую люди не могут понять, но которая работает на 10% лучше? Вещей, на которые смотрят мои френды с Facebook?

Наверно, он просто угадывает мой пол, возраст, уровень дохода и семейное положение. Наверное, нет. Не потому, что все парни любят машины и гаджеты, а потому что некий совсем не творческий человек влез в этот процесс и сказал «продавайте мою машину преимущественно мужикам», и «продавайте мои шмотки преимущественно женщинам». А потом, если я парень, он продаёт мне машины и гаджеты, а если девушка – модные штучки. Возможно, ИИ делает выводы на основе неверной демографии (мне известно, что Google ошибается на мой счёт), но это не имеет значения, поскольку обычно он оказывается по большей части правым, что лучше, чем быть правым на 0%, и рекламщики получают по большей части демографически таргетированную рекламу, что лучше, чем таргетинг с эффективностью в 0%.

Ну ведь наверняка. Вы ведь понимаете, что всё так и работает? Каждый человек за несколько секунд способен вспомнить о такой вещи, которую они хотели купить, но Алгоритм не смог им её предложить, в то время, как рекламная платформа Outbrain зарабатывает мешки денег, продавая ссылки на страховку автомобилей людям, у которых нет автомобиля. Это можно подтвердить на основе того, как плохо на самом деле работает реклама. С тем же успехом это могла быть телереклама из 90-х, демонстрируемая поздно ночью, когда можно было быть уверенным по поводу моего демографического профиля на основе того, что я ещё не спал.

Вы меня повсюду отслеживаете, записываете все мои действия в свои логии навечно, подставляетесь под то, чтобы кто-нибудь украл вашу базу данных, отчаянно страшитесь того, что какой-нибудь новый закон Евросоюза может уничтожить ваш бизнес… И всё ради вот этого?

Статистическая астрология

Конечно, всё на самом деле не совсем так просто, как описано. На каждом из посещаемых мною сайтов меня отслеживает не одна компания. Этих компаний вагон, и все они отслеживают меня на каждом посещаемом сайте. Некоторые из них даже не занимаются рекламой, они просто отслеживают, и потом продают эту информацию об отслеживании рекламщикам, которые вроде как должны использовать её для улучшения таргетирования.

Давайте взглянем на новостные сайты. Потрясающая экосистема. Из-за трекеров. Почему они так медленно грузятся? Там всего парочка рекламных объявлений, которые обычно не так долго грузятся. Не из-за рекламы – из-за трекеров. Если вы – гигантский издатель, балансирующий на грани банкротства, и у вас на сайте стоит уже 25 трекеров, а вам звонит 26-я компания, занимающаяся отслеживанием, и обещает платить по $50К в год за добавление ещё и их трекера – вы им откажете? Но там стоит куча трекеров, поскольку каждый из них платит им по чуть-чуть, чтобы им разрешили отслеживать просмотры каждой страницы. Ваша страница и так еле ворочается, поэтому замедление загрузки ещё на 1/25 ничего не изменит, а вот $50К – могут.

Долбанный стыд – сами трекеры не обязаны замедлять загрузку, но они её замедляют, поскольку их разработчики обязательно оказываются идиотами, каждому из которых надо загрузить тысячи строк JavaScript-кода для того, что можно сделать в две строчки. («Блокировщики рекламы» удаляют раздражающую рекламу, но ещё они ускоряют веб, в основном, удаляя трекеры. Но это уже другой разговор).

Чем больше у них данных по отслеживанию, тем лучше они могут управлять рекламой, да? А потом продавцы рекламы и рекламные сети покупают данные по отслеживанию у трекеров. Ну, наверное.

С другой стороны, сопоставить активность людей между разными трекерами довольно трудно, поскольку никто из них не хочет выдавать вам свой секретный ингредиент. А самое забавное состоит в том, что у каждого трекера есть часть данных о вас, но не все данные, поскольку каждый трекер стоит не на каждом веб-сайте. Допустим, у нас есть 25 трекеров, каждый из которых отслеживает миллион пользователей, и, возможно, куча данных там перекрывается. Поэтому каждый продавец рекламы прилагает все усилия, чтобы сопоставить все данные по всем трекерам, которые они покупают, но в основном это не срабатывает. Но в безумном мире, где перекрытие доказать нельзя, пользователей может быть и 25 миллионов! В разумном мире можно было бы догадаться, что эти данные описывают несколько миллионов отдельных пользователей. Наверное! Чем больше данных трекеров ваша рекламная сеть покупает, тем больше информации у вас становится! Возможно! А значит, таргетирование улучшается! Ну, видимо! И поэтому вы должны покупать рекламу нашей сети, а не другой сети, у которой меньше данных!

Они всё равно пытаются продать мне автомобильную страховку для езды на метро. Но это всё не работает.

И дело не только в рекламе

Многие вещи, связанные с таргетированной рекламой, очевидно, не работают – если бы кто-нибудь хоть раз остановился, и внимательно на всё это посмотрел. Но у слишком многих людей есть стимул считать иначе. Но если вы заботитесь о своей личной жизни, то всё сводится к тому, что они всё равно продолжают собирать вашу личную информацию, работает этот метод, или нет.

Они-то работают? А что насчёт алгоритмов рекомендации контента?

Вы вообще их пробовали? Очевидно, нет. Нет, серьёзно.

Некоторые штуки работают. Ладно, это не совсем честно. Очевидный способ – взять список песен, которые слушают ваши пользователи, зафигачить его в тренировочный набор для МО, и использовать результат для составления списка песен для новых пользователей, на основе… эээ… их профиля? Музыкальные рекомендации сервиса Pandora неожиданно хорошо работают, но они делают это совсем неочевидным способом. Возможно, на основе нескольких из первых песен, которые они выбирают вручную? Ну, у них же нет профиля, они только что присоединились. Возможно, но они наверняка начали либо с очень популярной песни, что ни о чём не говорит, либо очень редкой песни, для проверки обширности вашей базы, что говорит вам ещё меньше.

После каждого микса сервис пытается найти «наиболее похожий» микс, с которого можно продолжить. Уверен, что Mixcloud работает именно так. Наиболее похожим на этот микс оказывается первый микс, поэтому она его и выдаёт. Обычно это кто-то другой, загрузивший точно такой же микс. Офигенно, машинное обучение, продолжай в том же духе.

Но у всех, кроме Pandora, получается плохо. Это приводит нас к системе «случайная песня, палец вверх/палец вниз», которую все используют. Видимо, потому, что Pandora кучу времени вручную кодирует вагон характеристик музыки и пишет «реальные алгоритмы» (а не МО), которые пытаются выдавать списки песен на основе правильной комбинации этих характеристик. Почему?

Она часто выдаёт список песен, которые вам понравятся, после одного-двух пальца вверх/вниз, поскольку вы путешествуете по многомерной связной сети песен, которую люди построили сложным трудом, а не по массивной матрице средненьких списков песен, взятых у усреднённых людей, которые не пытаются генерировать эти списки песен. В этом смысле, Pandora нельзя назвать чистым МО. Pandora много чего не удаётся (особенно «доступ в Канаде»), но их музыкальные рекомендации прекрасно работают.

Если сервис Pandora способен выдать вам хороший список песен на основе первой и парочки оценок, тогда, мне кажется, он не строит ваш профиль. Есть только один подвох. И ему не нужна ваша личная информация.

Netflix

И, чтоб два раза не вставать, немного поворчу по поводу Netflix – странный случай развития, начавшегося с очень хорошего алгоритма рекомендаций, который затем специально ухудшили.

И это, не так уж неожиданно, привело к фиаско с приватностью, когда выяснилось, что опубликованные наборы данных можно деанонимизировать. Давным-давно жил-был приз от Netflix в размере $1 млн, обещанный лучшей команде, способной предсказать рейтинги фильмов, которые проставит человек, на основе уже проставленных рейтингов, и с лучшей точностью, чем могут в самой компании Netflix. Да, именно к этому и приводит долговременное хранение личной информации людей в базе данных.

Он и так был неплохим: я помню, как пользовался Netflix лет 10 назад, и получил несколько рекомендаций для фильмов, которые никогда не нашёл бы сам, но при этом они мне понравились. В Netflix считали, что их бизнес зависит от хорошего алгоритма рекомендаций. Но такого не происходило со мной на Netflix уже очень, очень давно.

Рассылка DVD по почте – штука медленная, поэтому было совершенно необходимо, чтобы хотя бы один фильм на дисках, приходящих раз в неделю, оказался достаточно интересным, чтобы в пятницу вечером смог развлечь вас. История следующая: когда-то Netflix был сервисом рассылки DVD по почте. Хорошая система рекомендаций была ключом к успеху. Проведя слишком много пятниц подряд с плохими фильмами, вы бы наверняка отписались. Думаю, что в этом деле использовалась и весьма интересная математика, гарантировавшая, что сервис сможет сдать в аренду как можно больший процент имеющихся на складе дисков, поскольку было нецелесообразно иметь вагон копий самого последнего блокбастера, который месяц будет популярным, а в следующем месяце уже не будет никому нужен.

Более того, было совершенно нормально, когда много людей смотрят один блокбастер. Но, в конце концов, Netflix переехал в онлайн, и стоимость плохих рекомендаций сильно упала: просто прекращайте смотреть и переключайтесь на новый фильм. И даже лучше, поскольку они тогда могут закэшировать его у провайдера, а кэш работает лучше, когда люди все скучные и усреднённые.

И это имеет смысл: чем больше времени вы проводите на Netflix, тем больше вы в нём «нуждаетесь». Что хуже, Netflix заметила закономерность: чем больше часов в неделю люди смотрят фильмы, тем меньше вероятность того, что они откажутся от сервиса. А когда новые пользователи тестируют сервис за почти фиксированную плату, то высокий процент удержания ведёт к ускорению роста.

перев.] – это когда мы копаемся в грязи в поисках не наилучшего варианта, а достаточно хорошего. Я узнал это тогда же, когда познакомился со словом satisficing [гибрид английских слов satisfying (удовлетворительный) и suffice (достаточный) / прим. Если у него есть выбор между фильмом, набравшим много призов, который с вероятностью в 80% понравится или с вероятностью в 20% вы возненавидите, и мейнстримным фильмом, на 0% особенным, но от которого вы не будете плеваться с вероятностью в 99%, то он будет каждый раз рекомендовать второй. Сегодня Netflix не занимается поисками лучшего фильма, он просто находит достаточно хороший. Посторонние значения вредят бизнесу.

Такие фильмы специально разработаны для того, чтобы быть безобидными практически для всех. Суть в том, что вам не нужно заниматься построением рискованного профиля, нарушающего приватность пользователя, чтобы порекомендовать мейнстримовый фильм. Мой экран с рекомендациями на Netflix –это уже не «рекомендовано для вас», это «новые выпуски», а потом «сейчас в тренде» и «пересмотрите заново».

Но вместо того, чтобы использовать его, они его выкинули. Netflix, как и обещал, выплатил $1 млн за победивший алгоритм рекомендаций, который был даже лучше прежнего.

Их прибыли растут. Какие-то дорогие специалисты по A/B тестированию определили, что именно это заставляет меня смотреть бездумные телепередачи наибольшее количество часов в день. И им для этого даже не надо вторгаться в мою личную жизнь.

И кто я такой, чтобы утверждать, что они неправы?

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»