Хабрахабр

[Перевод] Там, где человек видит формы, ИИ видит текстуры

К удивлению исследователей, алгоритмы компьютерного зрения с глубоким обучением часто не справляются с классификацией изображений потому, что они в основном ориентируются на текстуры, а не на формы.

Вероятно, вы сможете заметить кошку, когда она свернулась клубочком за подушкой или прыгает на стол, представляя собой лишь размытую форму. Если вы посмотрите на фотографию кошки, с большой вероятностью вы сможете узнать это животное, вне зависимости от того, будет оно рыжим или полосатым – или даже если фотография будет чёрно-белой, запятнанной, потрёпанной или потускневшей. А вот системы машинного зрения, работающие на основе глубоких нейросетей, хотя иногда и способны обставлять людей в задачах распознавания кошек при фиксированных условиях, но могут оказаться сбитыми с толку при помощи изображений, которые хоть немного отличаются от им известных, или же содержат шум или слишком сильную зернистость.
И теперь немецкие исследователи обнаружили неожиданную причину этого: если люди обращают внимание на формы изображённых объектов, компьютерное зрение с глубинным обучением цепляется за текстуры объектов. Вы естественным образом научились распознавать кошек почти в любой ситуации.

А также это может подсказать нам, почему наше зрение стало таким в результате эволюции. Это открытие, представленное в мае на международной конференции представлений обучения, подчёркивает резкий контраст между «мышлением» людей и машин, и иллюстрирует, насколько мы можем ошибаться в представлении о том, как работает ИИ.

Кошки со слоновьей кожей и самолёты из часов

Алгоритмы глубокого обучения работают, прогоняя через нейросеть тысячи изображений, на которых либо есть кошка, либо нет. Система ищет в этих данных закономерности, которые потом использует, чтобы поставить ранее не встречавшемуся ей изображению наилучшую метку. Архитектура сети немного напоминает строение зрительной системы человека, поскольку в ней есть связанные слои, позволяющие ей извлекать всё более абстрактные признаки из изображения. Однако процесс построения системой ассоциаций, ведущих к правильному ответу, представляет собой чёрный ящик, который люди могут лишь пытаться интерпретировать постфактум. «Мы пытались понять, что ведёт к успеху этих алгоритмов компьютерного зрения с глубоким обучением, и почему они настолько уязвимы», — сказал Томас Диттерих, специалист по информатике из Орегонского университета, не связанный с данным исследованием.

Они обнаружили, что даже небольшие изменения могут заставить систему совершенно неправильно пометить изображение – а большие изменения могут не привести к изменению метки. Некоторые исследователи предпочитают изучать, что происходит, когда они пытаются обмануть сеть, немного изменяя изображение. Тем временем, другие эксперты отслеживают изменения в системе, чтобы проанализировать, как отдельные нейроны реагируют на изображение, и составляют "атлас активаций" на основе признаков, которым обучилась система.

В прошлом году команда сообщила, что при обучении изображений, изменённых шумом определённого вида, сеть стала распознавать изображения лучше людей, пытавшихся разобрать такие же зашумлённые картинки. Но группа учёных из лабораторий вычислительного нейробиолога Матиаса Бетге и психофизиолога Феликса Вичмана из Тюбингенского университета в Германии избрала качественный подход. Однако те же самые изображения, видоизменённые чуть-чуть по-другому, совершенно сбили сеть с толку, хотя для людей новое искажение выглядело практически так же, как и старое.


Роберт Гейрос, аспирант по вычислительной нейробиологии из Тюбингенского университета

Очевидным выбором стали текстуры. Чтобы объяснить этот результат, исследователи задумались, какое качество изображения меняется больше всего даже при добавлении небольшого шума. Но «локальная структура изображения искажается очень быстро при добавлении небольшого количества шума». «Форма объекта остаётся более-менее невредимой, если долгое время добавлять много шума», — сказал Роберт Гейрос, аспирант в лабораториях Бетге и Вичмана, ведущий автор исследования. Поэтому они придумали хитроумный способ проверки того, как зрительные системы машин и людей обрабатывают изображения.

Люди размечали сотни таких изображений на основе их форм – кошка, медведь, самолёт – почти каждый раз, как и предполагалось. Гейрос, Бетге и их коллеги создали изображения с двумя противоречивыми особенностями, взяв форму от одного объекта, а текстуру от другого: к примеру, силуэт кошки, раскрашенный серой текстурой слоновьей кожи, или медведь, составленный из алюминиевых банок, или силуэт самолёта, заполненный накладывающимися друг на друга изображениями циферблатов. Однако четыре разных алгоритма классификации склонялись в другую сторону, выдавая метки, отражавшие текстуры объектов: слона, банок, часов.

«Это меняет наше представление о том, как глубокие нейросети с прямым распространением – без дополнительных настроек, после обычного процесса обучения – распознают образы», — сказал Николаус Кригескорте, вычислительный нейробиолог из Колумбийского университета, не участвовавший в исследовании.

«Текстура – это что-то вроде формы в большом разрешении», — сказал Кригескорте. На первый взгляд предпочтение у ИИ текстур формам может показаться странным, но оно имеет смысл. «Именно это и есть текстура», — сказал Джон Цоцос, специалист по вычислительному зрению из Йоркского университета в Торонто, не связанный с этим исследованием. И к такому масштабу системе легче цепляться: количество пикселей с информацией о текстурах значительно превышает количество пикселей, составляющих границу объекта, а самые первые шаги сети связаны с распознаванием локальных признаков, типа линий и граней. «К примеру, группировка отрезков, выстраивающихся одинаковым образом».

Это доказательство Бетге и ещё один из авторов исследования, постдок Виланд Брендель, довели до законченного вида в работе, которую также представляли на майской конференции. Гейрос с коллегами показали, что этих локальных признаков достаточно, чтобы сеть провела классификацию. Алгоритм разбивает картинку на мелкие фрагменты, как и текущие модели (такие, которые Гейрос использовал в своём эксперименте), но потом, вместо того, чтобы постепенно интегрировать эту информацию для извлечения признаков более высокого уровня абстракции, алгоритм сразу делает предположение о содержимом каждого кусочка («в этом кусочке есть свидетельства наличия велосипеда, в этом – наличия птицы»). В той работе они построили систему с глубоким обучением, работающую примерно так же, как работали алгоритмы классификации до распространения глубокого обучения – по принципу «мешка признаков». И всё же он смог распознавать объекты с неожиданно высокой точностью. Он просто складывал все решения, чтобы определить объект («если больше кусочков содержат признаки велосипеда, то это велосипед»), не обращая внимания на пространственные взаимоотношения кусочков.

«Очевидно, был совершён большой скачок. «Эта работа бросает вызов предположению о том, что глубокое обучение делает что-то совершенно отличное» от предыдущих моделей, сказал Брендель. Я просто говорю о том, что он оказался не таким большим, как надеялись некоторые».

Согласно Амиру Розенфельду, постдоку из Йоркского университета и университета Торонто, не участвовавшему в исследовании, «между тем, что нейросети должны, по нашему мнению, делать, и тем, что они делают, существует большая разница», включая то, насколько хорошо удаётся им воспроизводить поведение человека.

Легко предположить, что нейросети будут решать задачи так же, как люди, сказал он. Брендель высказался в том же ключе. «Однако мы постоянно забываем о существовании других методов».

Сдвиг в сторону более человеческого взгляда на вещи

Современные методы глубокого обучения могут интегрировать локальные признаки, типа текстур, в более глобальные закономерности, вроде форм. «Что в этих работах неожиданно и очень убедительно показано – хотя архитектура позволяет классифицировать стандартные изображения, этого не происходит автоматически, если вы просто обучаете сеть этому», — сказал Кригескорте.

Команда взяла изображения, традиционно используемые для обучения алгоритмов классификации, и раскрасила их в разных стилях, лишив их полезной информации о текстурах. Гейрос хотел посмотреть, что получится, если команда заставит модели игнорировать текстуры. Когда они переобучили каждую модель на новых изображениях, системы начали полагаться на более крупные, глобальные закономерности, и показали большую склонность в сторону распознавания форм, что было больше похоже на людей.


Виланд Брендель, вычислительный нейробиолог из Тюбингенского университета в Германии

«Сеть, распознающая формы, совершенно бесплатно стала более надёжной, — сказал Гейрос. А ещё после этого алгоритмы стали лучше классифицировать шумные изображения, даже когда их не обучали иметь дело с подобными искажениями. – Это говорит о том, что правильная предвзятость для выполнения определённых задач, в нашем случае – склонность к использованию форм, помогает обобщать знания на новые условия».

Люди живут в трёхмерном мире, где объекты видно со многих углов при множестве разных условий, и где другие наши чувства, например, осязание, могут по необходимости дополнять распознавание объектов. Это также говорит о том, что у людей такая склонность могла образоваться естественным путём, поскольку использование форм – более надёжный способ распознавать то, что мы видим, в новых или зашумлённых условиях. Кроме того, некоторые психологи продемонстрировали связь между языком, обучением и склонностью к использованию форм: когда детей учили обращать больше внимания на формы при изучении определённых категорий слов, позже они смогли выработать гораздо более объёмные словарные запасы существительных, чем другие. Поэтому для нашего зрения имеет смысл ставить форму в приоритет текстурам.

С этой проблемой исследователи столкнулись не в первый раз: уже было показано, что программы распознавания лиц, автоматический поиск резюме и другие нейросети придают слишком много значения неожиданным признакам из-за предубеждений, глубоко укоренившихся в данных, на основе которых они обучаются. Эта работа служит напоминанием того, что «данные сильнее влияют на предубеждение и отклонения моделей, чем нам казалось», сказал Вичман. Устранение нежелательных предубеждений из процесса принятия решений оказалось трудной задачей, но Вичман сказал, что новая работа демонстрирует, что это в принципе возможно, и его это обнадёживает.

В том же ключе в новой работе Розенфельда, Цоцоса и Маркуса Солбаха, аспиранта из лаборатории Цоцоса, демонстрируется, что алгоритмы машинного обучения не способны улавливать схожесть разных изображений так, как это делают люди. Тем не менее, даже модели Гейроса, фокусирующиеся на формах, можно обмануть, добавив в изображения слишком много шума, или сменив определённые пиксели, что говорит о том, что им ещё предстоит долгий путь до качества, сравнимого с человеческим зрением. А Вичман сказал, что «в некоторых случаях, возможно, важнее изучить набор данных». И всё же подобные работы «помогают точно указать, в каких именно аспектах эти модели пока не воспроизводят важные аспекты деятельности человеческого мозга», сказал Кригескорте.

«Это наша задача – разрабатывать хитроумные данные», — сказала она. Санья Фидлер, специалист по информатике из университета Торонто, не принимавшая участия в исследовании, соглашается. Вдохновившись открытиями Гейроса, они недавно обучили алгоритм классификации изображений не только распознавать сами объекты, но и определять, какие пиксели относятся к их контурам. Она с коллегами изучает, как вспомогательные задачи могут помочь нейросетям улучшить качество выполнения основных задач. «Если вам дают только одну задачу, то в итоге вырабатывается выборочное внимание и слепоту по отношению ко множеству других вещей, — сказал Фидлер. И сеть автоматически стала лучше распознавать объекты. Так же и с этими алгоритмами». – Если я дам вам несколько задач, вы узнаете о разных вещах, и этого уже может не произойти. Решение различных задач помогает им «выработать склонность к различной информации», что похоже на то, что случилось в эксперименте Гейроса с формами и текстурами.

– Вот поэтому я и обожаю эту серию работ». Всё эти исследования «очень интересный шаг к углублению нашего понимания происходящего при глубинном обучении, и, возможно, он поможет нам преодолеть те ограничения, которые нам встречаются, — сказал Дитрих.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть