ВТБ, «Сбербанк», официальный сайт мэра Москвы — утечки данных пользователей продолжаются

Марк Левин13.07.2018

0 3 Время чтения: 6 мин.

Павел Медведев

На фоне всеобщей истерии в ленте по поводу «Google Документов» и Power Bi я ввёл старый запрос 2011 года, чтобы посмотреть, изменилась ли ситуация, и ужаснулся.

Я считаю, это связано с тем, что из-за кризиса многие хорошие специалисты и разработчики переориентировались на Запад, и качество кадров в ИТ снизилось. Раньше проблемы были в основном у мелких интернет-магазинов, сейчас информацию сливают и такие гиганты, как ВТБ, «Сбербанк», департамент транспорта Москвы, агрегаторы авиабилетов и многие другие. Примеры данных, которые можно найти в поисковой выдаче:

Распечатки билетов с travel.vtb.ru

Данные транзакций через «Сбербанк»

«Сбербанк»

Пример пользовательских данных из заказа интернет-магазина

«Единый транспортный портал Москвы», dt-window.mos.ru

«Единый транспортный портал Москвы». Можно даже скачать сканы документов, паспортов пользователей в высоком разрешении

Вышеописанные три домена ВТБ, «Сбербанка» и «Единого транспортного портала Москвы» пренебрегают элементарными требованиями защиты данных — у них даже отсутствует файл robots.txt.

Как могло произойти так, что персональные данные — «Google Таблицы», отчёты с финансовыми показателями компаний в Power Bi могли попасть в выдачу поисковых систем?

Поисковые системы не могут получать доступ и читать информацию со страниц, которые требуют авторизации.

Проверяем защиту приведенного выше URL на предмет перебора: Современные системы требуют сложные пароли, пользователям не всегда удобно запоминать столько паролей, для их удобства доступа к личным страницам создатели сайтов придумали документы с уникальным длинным адресом из случайного набора символов, который невозможно угадать или получить перебором, пример: сайт.ру/проверить-статус-моего-заказа/orjY4mGPRjk5boDnW0uvlrrd71vZw9kphf8eGbhlTpS4q9cvHzFNngSdNNIG8H5Lt3.

Если быть более точным, то 18 миллиардов триллионов триллионов триллионов триллионов триллионов триллионов триллионов триллионов лет для перебора всех возможных вариантов. Звучит надёжно.

Как это работает: вам на email или в SMS приходит сообщение с такой ссылкой, и вроде бы логично, что только вы можете воспользоваться ей для просмотра, корректировки своих данных.

Но есть много способов, как поисковая система может узнать о ссылке — например, вы на каком-то полуприватном затерянном на окраинах интернета форуме, где сидите только вы, и пять ваших близких знакомых поделились этой ссылкой.

Такая ссылка рано или поздно проиндексируется, и страница с личной информацией попадёт в индекс. Поисковые системы регулярно переобходят даже самые малопосещаемые и никому неизвестные сайты, если они доступны для индексации роботам. Тогда я даже провёл семантический анализ текстов этих SMS. В 2011 году был скандал с попавшими в выдачу SMS «Мегафона».

Мало кто хотел бы, чтобы эта информация попадала в общий доступ, то есть ссылки точно на них не расставляли. Много измен, думаю, тогда было раскрыто. Дальше я в том же 2011 году решил проверить, как хранят персональные данные другие сайты, и сразу же обнаружил множество открытых данных с заказами в интернет-магазинах. Новость тогда прогремела, и запрос для поиска попал в топ-20 самых популярных запросов дня по Liveinternet. Пользователей почему-то больше всего заинтересовали данные покупателей секс-шопов. Хотя если человек покупал в магазине лопату и из-за этого утекли его ФИО, адрес, телефон и иногда паспорта — по-моему, такой же вопиющий провал.

Самые популярные в России — «Яндекс.Метрика» и Google Analytics. Системы аналитики (счётчики, которые устанавливают на каждой странице сайта для исследования поведения посетителей на нём).

Заходим в настройки любого счётчика «Метрики» и видим по умолчанию такие опции:

То есть все просмотренные пользователями страницы по умолчанию отправляются на индексацию, если не указать запрет

Потому что это один из множества источников данных поисковых систем. Но даже если установить запрет, приватные страницы всё равно попадают в индекс.

На них приходится более 70% всех посетителей. У Google есть браузер Chrome, у «Яндекса» — «Яндекс.Браузер».

Устанавливая браузеры, вы соглашаетесь с возможной обработкой, отправкой браузером анонимных данных о просмотрах и так далее. То есть это вполне легальный способ собрать большую часть когда-либо просмотренных пользователями страниц.

Когда вы скачиваете какую-нибудь бесплатную программу, часто с ней агрессивно навязываются программы и плагины для браузера от поисковых систем, которые многие специалисты расценивают как дополнительный канал для анализа трафика и поведения пользователей.

Помимо этого, поисковые системы могут покупать анонимизированные данные о трафике, просмотренных сайтах или страницах, как это делает известный сервис SimilarWeb.

Вы перешли на неё в телефоне, проверили и забыли. Ваша секретная ссылка уже не выглядит такой защищённой?
Представьте ситуацию: вы купили авиабилет с вылетом через полгода, вам пришла SMS с ссылкой для просмотра и редактирования информации в личном кабинете.

Тем временем ваш мобильный «Яндекс.Браузер», Android или счётчик метрики сообщил поисковику, что появилась неизвестная ранее страница, робот проверил — страница работает, проиндексировал её через какое-то время.

(Можно представить, что и такие сайты существуют, которые даже не предупредят об изменении и не запросят дополнительное подтверждение или авторизацию.) Потом злоумышленник вбивает в поиск зарос вроде «билет на Бали октябрь изменить бронирование» — попадает в ваш личный кабинет, переписывает фамилию на свою и через полгода улетает вместо вас.

Легально ли, что поисковики собирают такую информацию

Коммерческая ли тайна в таблицах с финансовыми показателями или, наоборот, вы хотели бы делиться этой информацией со всеми. Поисковый робот не знает — персональные ли данные в файле. Он переходит по страницам, доступ к которым не закрыт владельцами сайта.

В этом случае выглядит логичным получать адреса страниц для индексации из максимального числа источников. Часто структура и навигация сайтов очень запутанные, используются различные хитрые JavaScript, так что попасть на полезные страницы по ссылкам с главной страницы поисковикам бывает просто невозможно.

Кто виноват в сложившейся ситуации

Как специалист по поисковой оптимизации сайтов с 12-летним опытом могу сказать, что большинство сайтов до доработки SEO-специалистами выглядят плачевно, владельцы словно живут в параллельном мире без киберугроз, без поисковых систем, ботов, которые могут проиндексировать личные данные пользователей. Я считаю, что 80% вины лежит на владельцах сайтов, которые не обеспечивают должного качества разработки и оптимизации.

Часто сталкиваешься с непониманием от разработчиков сайтов: «Как же поисковые системы проиндексируют страницу, ведь у них нет ссылки этой страницы?». 20% отдал бы поисковикам за то, что они недостаточно освещают свои механизмы ранжирования и индексации. Такие же вопросы часто слышу даже от специалистов по SEO.

Рекомендую представителям поисковых систем больше упоминать на своих профильных конференциях и вебинарах для профессионалов о том, что любая страница, доступная без авторизации, может рано или поздно попасть в индекс. Большинство современных разработчиков считает, что документ, доступный по длинной уникальной ссылке, — надёжно защищён и никогда не попадёт в индекс.

То есть разработчики, сделав всё по инструкции Google, будут удивлены, когда в «Яндексе» директивы, наоборот, перестали работать, из-за чего в индекс попало множество документов, которые не должны были индексироваться. Ещё есть проблема в том, что разные поисковые системы по-разному используют директивы, их рекомендации по индексации иногда противоречат и взаимоисключаемы.

Последний случай с индексацией персональных данных в «Google Документах»

Я связываю последнюю утечку с ростом популярности самих сервисов Google — больше людей пользуется таблицами, теперь это не только айтишники, но и воспитатели детских садов, мамочки, составляющие план покупок. Пароли и личные данные всегда попадали в индекс, можно было найти эти данные, просто не в таких масштабах. То есть это уже не только продвинутые пользователи.

Мои рекомендации для владельцев и разработчиков сайтов

Любые чувствительные данные максимально закрывать от посторонних с помощью авторизации.
Всегда запрещать роботам индексировать любую конфиденциальную информацию. Причём использовать не только один из рекомендуемых поисковой системой способов, а дублировать, используя все методы защиты, такие как robots.txt, clean-param, meta-noindex.
Проверять, чтобы методы защиты были универсальными и работали во всех поисковых системах.
Помимо этого, определять роботов по user-agent и блокировать им доступ к любой приватной информации, отдавая ответ сервера 4хх.
Обращаться к профессионалам SEO для экспертизы поисковой оптимизации сайта.