Хабрахабр

[Перевод] Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей

А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».
«Анонимизированные» данные лежат в основе множества процессов: от современных медицинских исследований до персональных рекомендаций и ИИ-технологий. Theguardian.com опубликовал выводы из исследования, сделанного двумя именитыми вузами: Бельгийским университетом CLouvain и Imperial College London: ученые подтверждают, что существует множество способов связать любые анонимные данные с реальными людьми.
К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». К сожалению, согласно проведённому исследованию, в любых сложных датасетах практически невозможно успешно анонимизировать данные.

Например, больница может удалить имена, адреса и даты рождения пациентов из массива историй болезней в надежде, что исследователи смогут использовать остальные данные для обнаружения скрытых связей между состояниями. Из анонимизированного датасета должна быть полностью удалена вся идентифицируемая персональная информация, чтобы остались только основные полезные данные, которыми исследователи могут оперировать, не опасаясь нарушить приватность.

В 2008-м анонимный датасет рейтинга фильмов от Netflix был деанонимизирован с помощью сравнения рейтингов с данными на сайте IMDb. Но, на практике, данные можно разными способами деанонимизировать. А предложенные австралийским Минздравом анонимные данные о медицинских счетах могут быть идентифицированы с помощью перекрёстного сопоставления с «прозаичными фактами», такими как годы рождения матери и ребёнка, или матери и нескольких детей. Адреса проживания нью-йоркских таксистов были раскрыты на основе анонимного датасета отдельных поездок по городу.

К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». Исследователи из бельгийского Лувенского католического университета (UCLouvain) и Имперского лондонского колледжа построили модель для оценки лёгкости деанонимизации любого произвольного датасета. А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

Исследователи указали на данные, проданные компании-разработчику ПО Alteryx — в нём содержится по 248 атрибутов для 120 млн американских домохозяйств. Несмотря на это, брокеры данных вроде Experian продают «деидентифицированные» датасеты, содержащие о каждом человеке гораздо больше информации.

Исследователи утверждают, что их результаты доказывают недостаточность усилий по анонимизации для соответствия требованиям законодательства, например, GDPR (general data protection regulation).

«Наши результаты опровергают утверждения о том, что восстановление идентификационной информации невозможно…».

«Дальше они ставят под сомнение соответствие текущих методик деидентификации стандартам анонимизации из современных законов о защите данных, таких как GDPR и CCPA (Калифорнийский закон о неприкосновенности частной жизни потребителей), и подчеркивают необходимость выхода, с правовой и нормативной точек зрения, за рамки модели деидентификации «выпустил-и-забыл»».

Другие подходы к обработке массивных датасетов могут больше соответствовать современным критериям защиты информации. Дифференцированная приватность, практикуемая компаниями вроде Apple и Uber, намеренно размывает каждую единицу информации усреднённо по всему датасету, тем самым мешая деанонимизации с помощью предоставления технически некорректной информации о каждом человеке.

Результаты тоже будут зашифрованы, но их может расшифровать контролёр данных. Гомоморфное шифрование не позволяет считывать данные, но ими всё ещё можно манипулировать. И в конечном итоге, мы придём к синтетическим датасетам, что подразумевает обучение ИИ на реальной, идентифицируемой информации, на основе которой будут генерироваться новые, фальшивые единицы данных, которые статистически будут идентичны, но при этом никак не связаны с конкретными людьми.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть