Главная » Хабрахабр » [Перевод] Grasp2Vec: обучение представлению объектов через захват с самостоятельным обучением

[Перевод] Grasp2Vec: обучение представлению объектов через захват с самостоятельным обучением

Согласно исследованиям развития когнитивных способностей, возможность взаимодействия с объектами окружающего мира играет критическую роль в развитии таких способностей, как ощущение и манипулирование объектами – к примеру, целенаправленный захват. Люди с удивительно раннего возраста уже способны распознавать свои любимые объекты и поднимать их, несмотря на то, что их специально этому не учат. В робототехнике такой тип обучения с самостоятельным исправлением ошибок активно исследуется, поскольку он позволяет роботизированным системам учиться без огромного количества тренировочных данных или ручной подстройки. Взаимодействуя с окружающим миром, люди могут учиться, исправляя собственные ошибки: мы знаем, что мы сделали, и учимся на результатах.

Grasp2Vec основан на интуитивном понимании того, что попытка поднять любой объект выдаст нам некоторую информацию – если робот захватит объект и поднимет его, то объекту нужно находиться в этом месте до захвата. Мы в Google, вдохновившись концепцией постоянства объектов, предлагаем систему Grasp2Vec – простой, но эффективный алгоритм построения представления объектов. Используя такую форму самостоятельного обучения, робот может научиться распознавать объект благодаря визуальному изменению сцены после его захвата.
На основе нашего сотрудничества с X Robotics, где несколько роботов параллельно обучались захватывать объекты домашнего обихода, используя только одну камеру в качестве источника входных данных, мы используем роботизированный захват для «ненамеренного» захвата объектов, и этот опыт позволяет получить богатое представление об объекте. Кроме того, робот знает, что если захваченный объект находится в его захвате, то, значит, объекта уже нет на том месте, где он был. Это представление можно использовать уже для приобретения способности «намеренного захвата», когда рука робота может поднимать объекты по требованию.

Создание функции перцепционной награды

На платформе обучения с подкреплением успех задачи измеряется через функцию награды. Максимизируя награду, роботы обучаются различным навыкам захвата с нуля. Создать функцию награды легко, когда успех можно измерить простыми показаниями датчиков. Простой пример – кнопка, передающая по нажатию на неё награду непосредственно на вход роботу.

Рассмотрим задачу захвата на примере, когда роботу дают изображение нужного объекта, удерживаемого в захвате. Однако создание функции награды куда как сложнее, когда критерий успеха зависит от перцепционного понимания задачи. Функция награды для этой задачи зависит от ответа на вопрос распознавания образов: совпадают ли объекты? После того, как робот пытается захватить объект, он изучает содержимое захвата.

Справа захват держит чашку, а щётка находится на фоне.
Слева захват держит щётку, а на фоне видно несколько объектов (жёлтая чашка, синий пластиковый блок). Если бы левое изображение представляло нужный результат, хорошая функция награды должна была бы «понимать», что эти две фотографии соответствуют двум разным объектам.

По сути, алгоритмы обучения без учителя работают, создавая структурные предположения по поводу данных. Чтобы решить задачу распознавания, нам нужна перцепционная система, извлекающая осмысленные концепции объектов из неструктурированных изображений (не подписанных людьми), и обучающаяся визуальному восприятию объектов без учителя. Однако без дополнительных предположений по поводу содержимого данных этого обычно не хватает для обучения по ни с чем не связанным представлениям объектов. Часто предполагается, что изображения можно сжать до пространства с меньшим количеством измерений, а кадры видео можно предсказать по предыдущим.

Робототехника предлагает прекрасную возможность для обучения представлению объектов, поскольку роботы могут ими манипулировать, что даст необходимые факторы вариации. Что, если бы мы использовали робота для того, чтобы физически отделить объекты во время сбора данных? В результате получается 1) изображение сцены до захвата, 2) изображение сцены после захвата, и 3) отдельный вид на захваченный объект. Наш метод основан на идее о том, что захват объекта устраняет его со сцены.

В центре – после захвата.
Слева — объекты до захвата. Справа – захваченный объект.

Если мы рассмотрим встроенную функцию, извлекающую из изображений «набор объектов», она должна сохранять следующее соотношение вычитания:


объекты до захвата – объекты после захвата = захваченный объект

При тренировке показанная ниже архитектура встраивает изображения до и после захвата в плотную карту пространственных свойств. Мы достигаем этого равенства при помощи свёрточной архитектуры и простого алгоритма метрического обучения. Этот вектор и соответствующее ему представление вектора этого воспринятого объекта приравниваются через функцию N-пар. Эти карты превращаются в вектора через усреднённое объединение, и разница между векторами «до захвата» и «после захвата» представляет набор объектов.

После тренировки у нашей модели естественным образом появляются два полезных свойства.

1. Схожесть объектов

Косинусный коэффициент расстояния между векторными встройками позволяет нам сравнивать объекты и определять, идентичны ли они. Это можно использовать для реализации функции награды для обучения с подкреплением, и позволяет роботам обучаться захвату на примерах без разметки данных людьми.

2. Нахождение целевых объектов

Мы можем комбинировать пространственные карты сцены и встройку объектов для локализации «нужного объекта» в пространстве изображения. Осуществляя поэлементное перемножение карт пространственных особенностей и векторного соответствия нужного объекта, мы можем найти все пиксели на пространственной карте, соответствующие целевому объекту.

Слева вверху – объекты в корзине.
Использование встроек Grasp2Vec для локализации объектов в сцене. Скалярное произведение вектора целевого объекта и пространственных особенностей изображения даёт нам попиксельную «карту активации» (справа вверху) похожести заданного участка изображения на целевое. Слева внизу – нужный объект, который надо захватить. Эту карту можно использовать для приближения к целевому объекту.

К примеру, в данном сценарии робот определяет несколько оранжевых блоков в сцене. Наш метод также работает, когда несколько объектов соответствуют целевому, или даже когда цель состоит из нескольких объектов (среднее из двух векторов).

Мы комбинируем локализацию от Grasp2Vec и распознавание примеров с нашей политикой «захвата всего, что угодно», и достигаем успеха в 80% случаев во время сбора данных и в 59% с новыми объектами, с которыми робот ранее не сталкивался.
Получающуюся «тепловую карту» можно использовать для планирования приближения робота к целевому объекту (объектам).

Заключение

В нашей работе мы показали, как навыки роботизированных захватов могут создать данные, используемые для обучения представлениям объектов. Затем мы можем использовать обучение представлению для быстрого получения более сложных навыков, типа захвата по примеру, при этом сохраняя все свойства обучения без учителя в нашей автономной системе захвата.

Мы находимся в радостном предвкушении не только того, что машинное обучение может дать робототехнике в плане лучшего восприятия и контроля, но и того, что робототехника может дать машинному обучению в плане новых парадигм самостоятельного обучения. Кроме нашей работы, в нескольких других недавних работах также проводилось изучение того, как взаимодействие без учителя можно использовать для получения представлений объектов, путём захвата, толчков и другого рода взаимодействий с объектами в окружении.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

[Из песочницы] Английский и айтишник: английскую сову на русский глобус?

Люди с техническим складом ума во всем стремятся найти систему. При изучении английского, столь востребованного в IT, многие программисты сталкиваются с тем, что не могут понять, как устроен этот язык, его систему. “Кто виноват?” В чем же проблема? Казалось бы, ...

Читай старьё

Интерес к другим предметам приходил и уходил, а к истории оставался всегда. Всю свою сознательную жизнь я любил историю. Моя любовь к истории даже как-то привела меня на олимпиаду по истории, которую я, по какому-то стечению обстоятельств, выиграл, написав сочинение-рассуждение ...