Хабрахабр

[Перевод] Вредоносное машинное обучение как диагностический метод

Привет всем!

Эта тема рассмотрена в 9-й главе книги Франсуа Шолле. Продолжая проработку темы глубокого обучения, мы как-то раз хотели поговорить с вами о том, почему нейронным сетям повсюду мерещатся овцы.

Таким образом мы вышли на замечательные исследования компании «Positive Technologies», представленные на Хабре, а также на отличную работу двоих сотрудников MIT, считающих, что «вредоносное машинное обучение» — не только помеха и проблема, но и замечательный диагностический инструмент.

В этой статье мы хотели бы в общих чертах рассмотреть данный феномен и обсудить, как он вписывается в более широкий контекст надежности машинного обучения. Далее — под катом.
В течение нескольких последних лет случаи вредоносного вмешательства привлекли серьезное внимание в сообществе специалистов по глубокому обучению.

Вредоносные вмешательства: интригующий феномен

Думаем, что большинству исследователей, занятых МО, попадались подобные картинки: Чтобы очертить пространство нашей дискуссии, приведем несколько примеров такого вредоносного вмешательства.

Стоит нам внести в картинку минимальные изменения (все пикселы находятся в диапазоне [0, 1], и каждый меняется не более чем на 0,005) – и теперь сеть с высокой достоверностью возвращает класс «авиалайнер». Слева изображен поросенок, верно классифицируемый современной сверточной нейронной сетью как поросенок. Затем этот феномен стал привлекать существенно больше внимания примерно с 2013 года, когда выяснилось, что нейронные сети уязвимы для атак такого рода (см. Такие атаки на обученные классификаторы известны как минимум с 2004 года (ссылка), а первые работы, касающиеся вредоносного вмешательства в классификаторы изображений относятся к 2006 году (ссылка). С тех пор многие исследователи предлагали варианты построения вредоносных примеров, а также способы повышения устойчивости классификаторов к таким патологическим возмущениям. здесь и здесь).

Однако, важно помнить, что совсем необязательно углубляться в нейронные сети, чтобы наблюдать такие вредоносные примеры.

Насколько устойчивы вредоносные примеры?

Однако, следует отметить, что использованный при этом классификатор (сеть Inception-v3) не так хрупок, как может показаться на первый взгляд. Возможно, ситуация, в которой компьютер путает поросенка с авиалайнером, поначалу может растревожить. Поэтому, основной вопрос заключается в том, именно ли вредоносные возмущения вызывают хрупкость сетей. Хотя, сеть и наверняка ошибается при попытке классифицировать искаженного поросенка, это происходит лишь в случае специально подобранных нарушений.
Сеть гораздо устойчивее к случайным возмущениям сопоставимой магнитуды. Если вредоносность как таковая критически зависит от контроля над каждым входным пикселом, то при классификации изображений в реалистичных условиях такие вредоносные образцы не кажутся серьезной проблемой.

Например, вредоносные образцы можно напечатать на обычном офисном принтере, так что изображения на них, сфотографированные камерой смартфона, все равно классифицируются неправильно. Недавние исследования свидетельствуют об ином: можно обеспечить устойчивость возмушений к различным канальным эффектам в конкретных физических сценариях. Наконец, недавно исследователи напечатали на 3D-принтере черепашку, которую стандартная сеть Inception практически под любым углом обзора ошибочно считает винтовкой. Также можно изготовить стикеры, из-за которых нейронные сети неверно классифицируют различные реальные сцены (см., например, ссылка1, ссылка2 и ссылка3).

Подготовка атак, провоцирующих ошибочную классификацию

Подходов много, но оптимизация позволяет свести все эти различные методы к обобщенному представлению. Как создать такие вредоносные возмущения? Как известно, обучение классификатора зачастую формулируется как нахождение параметров модели , позволяющих минимизировать эмпирическую функцию потерь для заданного множества примеров :

Поэтому, чтобы спровоцировать ошибочную классификацию для фиксированной модели и “безвредного” ввода , естественно попытаться найти ограниченное возмущение , такое, чтобы потери на получились максимальными:

Ряд примеров приведен в следующих статьях: ссылка1, ссылка2, ссылка3, ссылка4 и ссылка5. Если исходить из этой формулировки, многие методы создания вредоносного ввода можно считать различными оптимизационными алгоритмами (отдельные шаги градиента, проецируемый градиентный спуск, т.д.) для различных наборов ограничений (небольшое -нормальное возмущение, небольшие изменения пикселов, т.д.).

Поэтому важен вопрос: а не воздействуют ли данные возмущения лишь на конкретную целевую модель? Как было объяснено выше, многие успешные методы генерации вредоносных образцов работают с фиксированным целевым классификатором. При применении многих методов возмущения результирующие вредоносные образцы переносятся от классификатора к классификатору, обученных с разным набором исходных случайных значений (random seeds) или различных архитектур моделей. Что интересно – нет. См., например, пять следующих статей: ссылка1, ссылка2, ссылка3, ссылка4 и ссылка5. Более того, можно создать вредоносные образцы, обладающие лишь ограниченным доступом к целевой модели (иногда в таком случае говорят об «атаках по принципу черного ящика»).

Не только картинки

Похожие феномены известны при распознавании речи, в вопросно-ответных системах, при обучении с подкреплением и решении других задач. Вредоносные образцы встречаются не только при классификации изображений. Как вы уже знаете, изучение вредоносных образцов продолжается более десяти лет:

Полная шкала приведена на рис. Хронологическая шкала вредоносного машинного обучения (начало). 6 в этом исследовании.

Если злоумышленник может обмануть классификатор и выдать вредоносный ввод (скажем, спам или вирус) за безвредный, то спам-детектор или антивирусный сканер, работающий на основе машинного обучения, окажется неэффективен. Кроме того, естественной средой для изучения вредоносных аспектов машинного обучения являются приложения, связанные с обеспечением безопасности. Например, команда Google Safebrowsing еще в 2011 году опубликовала многолетнее исследование того, как злоумышленники пытались обходить их системы обнаружения вредоносного ПО. Следует подчеркнуть, что эти соображения – не чисто академические. эту статью о вредоносных образцах в контексте фильтрации спама в почте GMail. Также см.

Не только безопасность

Это обоснованная точка зрения, но мы считаем, что такие образцы должны рассматриваться и в более широком контексте. Все новейшие работы по изучению вредоносных образцов совершенно четко выдержаны в ключе обеспечения безопасности.

Надежность

Прежде, чем мы сможем осмысленно рассуждать о свойствах классификатора с точки зрения безопасности, мы должны убедиться, что механизм хорошо обеспечивает высокую точность классификации. В первую очередь вредоносные образцы поднимают вопрос о надежности всей системы. В конце концов, если мы собираемся развертывать наши обученные модели в реальных сценариях, то необходимо, чтобы они демонстрировали высокую степень надежности при изменении распределения базовых данных – независимо от того, обусловлены ли эти изменения злонамеренным вмешательством или всего лишь естественными флуктуациями.

В частности, подход с учетом вредоносных образцов позволяет выйти за рамки стандартного протокола оценки, где обученный классификатор прогоняется по тщательно подобранному (и обычно статическому) тестовому набору. В таком контексте вредоносные образцы – это полезное диагностическое средство для оценки надежности систем машинного обучения.

Например, оказывается, что можно легко создавать вредоносные образцы, даже не прибегая к изощренным методам оптимизации. Так можно прийти к поразительным выводам. (См. В недавней работе мы показываем, что ультрасовременные классификаторы изображений удивительно уязвимы для небольших патологических переходов или поворотов. здесь и здесь другие работы на эту тему.)

В более широком смысле, необходимо понимать показатели надежности наших классификаторов, прежде, чем можно будет интегрировать их в более крупные системы как подлинно надежные компоненты. Поэтому, даже если не придавать значения, скажем, возмущениям из разряда ℓ∞ℓ∞, все равно зачастую возникают проблемы с надежностью из-за вращений и переходов.

Понятие о классификаторах

В данном случае вредоносные образцы иллюстрируют, что обученные нейронные сети зачастую не соответствуют нашему интуитивному представлению о том, что значит «выучить» конкретную концепцию. Чтобы понять, как работает обученный классификатор, необходимо найти примеры его явно удачных или неудачных операций. Вредоносные образцы отчетливо заставляют в этом усомниться сразу во множестве контекстов: Это особенно важно в глубоком обучении, где часто заявляют о биологически правдоподобных алгоритмах и о сетях, чья успешность не уступает человеческой (см, напр., здесь, здесь или здесь).

  • При классификации изображений, если минимально изменить набор пикселов или немного повернуть картинку, это едва ли помешает человеку отнести его к верной категории. Тем не менее, такие изменения полностью вырубают самые современные классификаторы. Если поместить объекты в необычном месте (например, овец на дереве) также легко убедиться, что нейронная сеть интерпретирует сцену совсем не так как человек.
  • Если подставить нужные слова в текстовый отрывок, можно серьезно запутать вопросно-ответную систему, хотя, с точки зрения человека смысл текста из-за таких вставок не изменится.
  • В этой статье на тщательно подобранных текстовых примерах показаны границы возможностей переводчика Google Translate.

Во всех трех случаях вредоносные примеры помогают испытать на прочность наши современные модели и подчеркивают, в каких ситуациях эти модели действуют совершенно не так, как поступал бы человек.

Безопасность

Всего несколько лет назад такие задачи как классификация изображений выполнялись еще очень плохо, поэтому проблема безопасности в данном случае казалась вторичной. Наконец, вредоносные образцы действительно представляют опасность в тех сферах, где машинное обучение уже достигает определенной точности на «безвредном» материале. В противном случае мы все равно не можем доверять ее прогнозам. В конце концов, степень безопасности системы с машинным обучением становится существенна лишь тогда, когда эта система начинает достаточно качественно обрабатывать «безвредный» ввод.

Если мы хотим ответственно к этому подойти, то важно исследовать их свойства именно в контексте безопасности. Теперь в различных предметных областях точность таких классификаторов существенно повысилась, и развертывание их в ситуациях, где критичны соображения безопасности – всего лишь вопрос времени. Подделать некоторые признаки (например, набор пикселов) гораздо легче, чем, например, другие сенсорные модальности, или категориальные признаки, или метаданные. Но к вопросу безопасности нужен целостный подход. В конце концов, при обеспечении безопасности лучше всего полагаться именно на такие признаки, которые сложно или даже практически невозможно изменить.

Итоги (подводить пока рано?)

Проблемы самые разнообразные (напр., связанные с честностью, приватностью или эффектами обратной связи), причем, максимальную озабоченность вызывает надежность. Несмотря на впечатляющий прогресс в машинном обучении, который мы наблюдали в последние годы, необходимо учитывать пределы возможностей тех инструментов, что есть у нас в распоряжении. Однако, вредоносные образцы демонстрируют, что нейронные сети до сих пор очень далеки от сопоставимой устойчивости. Человеческое восприятие и познание устойчивы к разнообразнейшим фоновым помехам окружающей среды.

Их применимость в машинном обучении далеко не ограничивается вопросами безопасности, а может послужить диагностическим эталоном для оценки обученных моделей. Итак, мы уверены в важности изучения вредоносных примеров. Если мы хотим разобраться в надежности современного машинного обучения, то новейшие достижения важно исследовать и с точки зрения злоумышленника (правильно подобрав вредоносные образцы). Подход с использованием вредоносных образцов выгодно отличается от стандартных оценочных процедур и статических тестов тем, что позволяет выявить потенциально неочевидные изъяны.

В конце концов, мы стремимся создавать такие модели, которые не просто будут надежны, но и будут согласовываться с нашими интуитивными представлениями о том, что такое «изучить» задачу. Пока наши классификаторы сбоят даже при минимальных изменениях между учебным и тестовым распределением, мы не сможем достичь удовлетворительной гарантированной надежности. Тогда они будут безопасны, надежны и удобны для развертывания в самых разных средах.

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»