Методы распознавания 3D-объектов для беспилотных автомобилей. Доклад Яндекса

Ксюша Родионова27.01.2019

0 6 Время чтения: 7 мин.

Беспилотному авто не обойтись без понимания, что находится вокруг и где именно. В декабре прошлого года разработчик Виктор Отлига выступил на «Дата-елке» с докладом о детекции 3D-объектов. Виктор работает в направлении беспилотных автомобилей Яндекса, в группе обработки дорожной ситуации (а также преподает в ШАДе). Он объяснил, как мы решаем задачу распознавания других участников дорожного движения в трехмерном облаке точек, чем эта задача отличается от распознавания объектов на изображении и как извлечь пользу из совместного использования разных типов сенсоров.

— Всем привет! Меня зовут Виктор Отлига, я работаю в офисе Яндекса в Минске, занимаюсь разработкой беспилотных автомобилей. Сегодня я расскажу о достаточно важной задаче для беспилотников — распознавании 3D-объектов вокруг нас.

Я коротко расскажу, какие датчики и сенсоры используются на беспилотных автомобилях и какие используем мы. Чтобы ездить, надо понимать, что находится вокруг. Потом расскажу, на чем это качество можно мерить. Расскажу, что представляет собой задача детекции 3D-объектов и как померить качество детекции. А в конце — маленькие результаты, сравнение этих алгоритмов, и нашего в том числе. И потом сделаю краткий обзор хороших современных алгоритмов, в том числе тех, на идеях из которых основаны наши решения.

Именно такое такси может прокатить любого желающего без водителя в городе Иннополис в России, а также в Сколково. Примерно так сейчас выглядит наш рабочий прототип беспилотного автомобиля. Что же там внутри? И если приглядеться, сверху большая плашка.

Есть антенна GNSS и GSM, чтобы определять, где находится автомобиль, и иметь связь с внешним миром. Внутри нехитрый набор сенсоров. Но нас сегодня будут интересовать лидары. Куда же без такого классического датчика, как камеры.

И с ними приходится работать. Лидар выдает примерно такое облако точек вокруг себя, у которых есть три координаты. Я расскажу, как, используя картинку с камеры и лидарное облако, распознать какие-нибудь объекты.

На вход поступает картинка с камеры, камера синхронизирована с лидаром. В чем задача? Было бы странно использовать картинку с камеры секунду назад, брать лидарное облако совсем с другого момента и пытаться на нем распознать объекты.

На вход поступают такие данные, и в конце хотим получить коробочки, bounding boxes, которые ограничивают объект: пешеходов, велосипедистов, машин и прочих участников дорожного движения и не только. Мы как-то синхронизируем камеры и лидары, это отдельная непростая задача, но мы с ней успешно справляемся.

Как мы будем ее оценивать? Задачу поставили.