Хабрахабр

[Перевод] Новая наука заглядывания за угол

Исследователи компьютерного зрения обнаружили имеющийся у нас в распоряжении скрытый мир визуальных сигналов, где есть незаметные движения, выдающие то, что было сказано, и расплывчатые изображения того, что находится за углом

В итоге Торральба понял, что изменившие цвет пятна на стене были не тенями, а тусклыми, перевёрнутыми изображениями патио, находившегося снаружи. Специалист по компьютерному зрению Антонио Торральба, отдыхая на побережье Испании в 2012 году, заметил на стене своей комнаты в отеле случайные тени, которые, казалось, ничто не отбрасывало. На залитой солнцем стене это изображение едва можно было различить. Окно работало как пинхол – простейший вид камеры, в которой лучи света проходят через небольшое отверстие и формируют с другой стороны перевёрнутое изображение. Но Торральба осознал, что наш мир заполнен визуальной информацией, которую не воспринимают наши глаза.

Эти изображения в 1000 раз менее яркие, чем всё остальное, и обычно они не видны невооружённым глазом. «Эти изображения скрыты от нас, — сказал он, — но они постоянно нас окружают».
Пережитый опыт позволил ему и его коллеге, Биллу Фриману, также профессору из Массачусетского технологического института, осознать, что мир заполнен «случайными камерами», как они их называют: окнами, углами, домашними растениями и другими обыкновенными объектами, создающими скрытые изображения своего окружения. «Мы придумали способы вычленять эти изображения и делать их видимыми», — пояснил Фриман.

В первой работе они показали, что при съёмке при помощи обыкновенного iPhone изменений света на стене комнаты, из полученного видео можно воссоздать сцену за окном. Они узнали, как много визуальной информации скрывается прямо на виду у всех. Этим летом они продемонстрировали, что могут снять на видео домашнее растение, а потом воссоздать трёхмерное изображение всей комнаты на основе теней, отбрасываемых листьями растения. Прошлой осенью они и их коллеги сообщили, что можно обнаружить человека, движущегося за углом, снимая на камеру землю рядом с углом. Или они могут превратить листья в "визуальный микрофон", увеличивая их колебания и распознавая речь.

2) Размытое изображение патио на стене; 3) ему можно повысить резкость, прикрыв большую часть окна картоном, чтобы уменьшить размер отверстия.
1) Патио снаружи комнаты отеля, где Антонио Торральба заметил, что окно работает как пинхол. 4) Если перевернуть его вверх ногами, можно увидеть сцену снаружи.

«У нашей Мэри был баран», — говорит человек на аудиозаписи, воссозданной с движений пустого пакетика из-под чипсов, которые учёные снимали сквозь звуконепроницаемое окно в 2014 году (это первые слова, записанные Томасом Эдисоном в 1877 году на фонографе).

В 2016 году, в частности, и благодаря их результатам, Управление перспективных исследовательских проектов Министерства обороны США (DARPA) запустила программу REVEAL стоимостью $27 млн (Revolutionary Enhancement of Visibility by Exploiting Active Light-fields – революционное улучшение видимости с использованием активных световых полей). Исследования по поводу заглядывания за углы и построения предположений об объектах, не видимых напрямую, или «построение изображений не в прямой видимости», начались в 2012 году с работы Торральбы и Фримана по случайной камере, и с ещё одной переломной работы, проведённой отдельной группой учёных из MIT под руководством Рамеша Раскара. С тех пор поток новых идей и математических трюков делает построение изображений не в прямой видимости всё более мощным и практичным. Программа финансирует появляющиеся по всей стране лаборатории.

Кроме очевидного применения в военных и разведывательных целях, исследователи изучают вопросы применения технологии в робомобилях, роботизированном зрении, медицинской фотографии, астрономии, исследованиях космоса и спасательных миссиях.

Они просто разбирались с основами формирования изображений и с тем, что такое камера, из чего естественным образом развилось более полное исследование поведения света и его взаимодействия с объектами и поверхностями. Торральба сказал, что у них с Фриманом в самом начале работы не было идей по практическому применению технологии. Психологические исследования, по словам Торральба, показывают, что «люди ужасно плохо умеют интерпретировать тени. Они начали видеть такие вещи, которые никто и подумать не мог искать. И в итоге глаза бросили попытки их осмыслить». Возможно, одна из причин этого состоит в том, что многие видимые нами вещи не являются тенями.

Случайные камеры

Лучи света, переносящие изображение мира, находящегося за пределами нашего поля зрения, постоянно падают на стены и другие поверхности, после чего отражаются и попадают нам в глаза. Но почему эти визуальные остатки так слабы? Просто слишком много лучей идёт по слишком большому количеству направлений, и изображения размываются.

Это и делает камера-пинхол. Для формирования изображения необходимо серьёзно ограничить лучи, падающие на поверхность, и увидеть только определённых их набор. Изначальная идея Торральбы и Фримана в 2012 году состояла в том, что в нашем окружении есть довольно много объектов и различных свойств, естественным образом ограничивающих лучи света и формирующих слабые картинки, которые способен распознать компьютер.

Окно в отеле Торральбы было слишком большим для того, чтобы изображение получилось резким, и они с Фриманом понимали, что в общем полезные случайные камеры-пинхолы встречаются довольно редко. Чем меньше апертура пинхола, тем резче получится изображение, поскольку каждая точка изучаемого объекта испустит только один световой луч под правильным углом, которому удастся пройти через отверстие. Однако они сообразили, что анти-пинхолы («точечные» камеры), состоящие из любого небольшого объекта, блокирующего свет, формируют изображения в изобилии.


Билл Фриман


Антонио Торральба

Многого вы не увидите. Представьте, что вы снимаете внутреннюю стену комнаты через щель в жалюзи. Сравнение интенсивности света на стене при наличии и при отсутствии руки выдаёт полезную информацию о сцене. Внезапно в вашем поле зрения появляется рука. Вычитая данные второго кадра из данных первого, как говорит Фриман, «можно вычислить то, что блокировала рука» – набор световых лучей, представляющих изображение части комнаты. Набор лучей света, падающих на стену в первом кадре, на мгновение блокируется рукой в следующем. «Если изучать то, что блокирует свет, и то, что пропускает свет, — сказал он, — можно расширить набор мест, где можно встретить пинхол-камеры».

Теперь они легко могут заметить движение в одну сотую пикселя, которое в обычных условиях просто потонуло бы в шуме. Вместе с работой по изучению случайных камер, воспринимающих небольшие изменения в интенсивности, Фриман с коллегами разработали алгоритмы, определяющие и усиливающие небольшие изменения цвета – такие, как изменение цвета лица человека при приливе или отливе крови, а также крохотные движения – это то, благодаря чему можно было записать разговор, снимая пакетик чипсов. В полученном пространстве шум не доминирует над сигналом, поскольку синусоиды представляют средние значения, взятые над многими пикселями, поэтому шум распределяется по ним. Их метод математически преобразует изображения в конфигурации синусоид. Благодаря этому исследователи могут определять сдвиги синусоид от одного кадра видео к другому, усиливать эти сдвиги, а потом преобразовывать данные обратно.

В исследовании, описанном в прошлом октябре, которое проводила Кэти Боумен (тогда студентка под руководством Фримана, а ныне учёный из Гарвард-Смитсонианского астрофизического центра), было показано, что углы зданий работают как камеры, создающие грубое изображение того, что находится за углом. Теперь они начали комбинировать все эти трюки для извлечения скрытой визуальной информации.

Когда невидимые объекты начинают двигаться, свет и тени от них двигаются под разными углами по отношению к стене.
Снимая полутень на земле рядом с углом (1), можно получить информацию об объектах, находящихся за углом (2). Примитивные видео со светом, идущим под разными углами к полутени, выдают наличие за углом одного движущегося человека (4) и двоих (5). Небольшие изменения интенсивности и цвета обычно нельзя различить невооружённым глазом (3), но можно усилить при помощи алгоритмов.

Используя обыкновенные камеры, те же iPhone, при дневном свете, Боумен с коллегами снимали полутень на углу здания – область с тенями, подсвечиваемую подмножеством световых лучей, идущих из скрытого участка за углом. Грани и углы, как и пинхолы с точечными камерами, препятствуют прохождению солнечных лучей. Если, к примеру, там пройдёт человек в красной рубашке, эта рубашка отправит небольшое количество красного света в полутень, и этот свет будет перемещаться по полутени, пока человек идёт, невидимый обычным глазом, но обнаруживаемый после постобработки.

Листья работали в качестве точечных камер, каждый из которых блокировал свой набор световых лучей. В революционной работе, опубликованной в июне, Фриман с коллегами воссоздали «световое поле» комнаты – картину интенсивности и направления хода лучей света в комнате – из теней, отбрасываемых лиственным растением, стоявшим рядом со стеной. Учитывая параллакс, исследователи затем смогли свести все эти изображения вместе. Сопоставление тени каждого листа с остальными тенями выдавало это недостающий набор лучей, и позволяло получить изображение части спрятанной сцены.

Зная форму растения, полагая, что естественные изображения должны быть гладкими, и учитывая несколько других предположений, исследователи смогли сделать определённые выводы, касающиеся сигналов, содержащих шум, что помогло сделать итоговое изображение резче. Такой подход даёт куда как более чёткие изображения, чем ранние работы со случайными камерами, поскольку в алгоритм встроены заранее приобретённые знания о мире. Технология работы со световым полем «требует знаний об окружающем мире для создания реконструкции, но и даёт вам много информации», — сказал Торральба.

Рассеянный свет

А пока Фриман, Торральба и их протеже раскрывают изображения, которые были спрятаны, в другом месте кампуса MIT Рамеш Раскар, специалист по компьютерному зрению, выступавший с докладами на TED, намеревается «изменить мир» и выбирает подход под названием «активное построение изображений». Он использует специализированные дорогие системы лазерных камер для создания изображений высокого разрешения, отображающих то, что находится за углом.


Рамеш Раскар

Малая часть рассеянного света сумеет обойти препятствие. В 2012 году в рамках реализации идеи, посетившей его пять лет назад, Раскар с командой впервые создали технологию, при которой необходимо выпускать лазерные импульсы в стену. Измеряя время, потраченное фотонами на возвращение, исследователи могут узнать, насколько далеко они улетали, и в деталях воссоздать трёхмерную геометрию скрытых за препятствием объектов, на которых рассеялись фотоны. А через небольшое время после каждого импульса они используют «камеру вспышек», записывающую отдельные фотоны со скоростью миллиарды кадров в секунду, чтобы обнаружить фотоны, отскочившие от стены. Допустим, что за углом прячется человек. Одна из сложностей состоит в том, что для формирования трёхмерного изображения необходимо проводить растровое сканирование стены лазером. Но если посветить лазером немного в другое место, тогда свет от трёх этих точек уже не прибудет в камеру в одно и то же время». «Тогда свет, отразившийся от определённой точки на голове, от определённой точки на плече, и от определённой точки на колене может прибыть в камеру в одно и то же время, — сказал Раскар. Необходимо скомбинировать все сигналы и решить «обратную задачу» для воссоздания скрытой трёхмерной геометрии.

Но была проделана серьёзная работа по упрощению математики и уменьшению расходов. Оригинальный алгоритм Раскара для решения обратной задачи требовал слишком много вычислительных ресурсов, а сам аппарат стоил полмиллиона долларов. Авторы, Мэтью О’Тул, Дэвид Линдел и Гордон Вецтейн из Стэнфордского университета разработали новый мощный алгоритм для решения обратной задачи и использовали относительно недорогие камеры SPAD – полупроводниковые устройства, частота кадров у которых ниже, чем у вспышковых камер. В марте в журнале Nature была опубликована работа, задавшая новый стандарт эффективного и экономичного построения трёхмерных изображений объекта – в работе воссоздавали фигурку кролика – находящегося за углом. Раскар, ранее работавший куратором двух авторов работы, назвал её «очень хитроумной» и «одной из моих любимых».

Но направив лазер и камеру почти в одну точку, исследователи смогли составить карту исходящих и приходящих фотонов из одного "светового конуса". Предыдущие алгоритмы тонули в деталях: исследователи обычно пробовали обнаружить возвращающиеся фотоны, отразившиеся не от той точки стены, в которую светил лазер, чтобы камера могла избежать сбора рассеянного света лазера. О’Тул (с тех пор сменивший место работы со Стэнфорда на Университет Карнеги-Меллона) перевёл физику световых конусов – разработанную учителем Альберта Эйнштейна, Германом Минковским в начале XX века – в лаконичное выражение, связывающее время полёта фотона с расположением рассеивающих поверхностей. Рассеиваясь с поверхности, свет формирует расширяющуюся сферу из фотонов, которая вырисовывает конус, распространяясь в пространстве-времени. Он назвал свой перевод «трансформация светового конуса».

«В ближайшем будущем такие датчики будут доступны и в переносном формате», — предсказывает Андреас Велтен, первый автор начальной работы Раскара от 2012 года, руководящий ныне группой, занимающейся построением активных изображений в Висконсинском университете. Робомобили уже используют системы LIDAR для построения прямых изображений, и можно представить, что когда-нибудь обзаведутся SPAD, чтобы заглядывать за угол. Нам нужна технология, позволяющая направить прибор и нажать кнопку». Теперь стоит задача «обработки более сложных сцен» и реалистичных сценариев, сказал Велтен, «а не просто тщательного создания сцены с белым объектом и чёрным задником.

Где находятся вещи

Исследователи из группы Фримана начали совмещать пассивный и активный подходы. В работе, проведённой под руководством исследователя Кристоса Трампулидиса, показано, что при активном построении изображений при помощи лазера точечную камеру известной формы, находящуюся за углом, можно использовать для воссоздания скрытой сцены, совсем не используя информацию о времени полёта фотонов. «И это должно получиться у нас при помощи обычной ПЗС-матрицы», — сказал Трампулидис.

Велтен сотрудничает с Лабораторией реактивного движения НАСА, работая над проектом, направленным на построение на расстоянии изображений объектов, находящихся внутри пещер Луны. Построение изображений не в прямой видимости когда-нибудь сможет помочь спасательным командам и автономным роботам. А Раскар с компанией используют их подход для чтения первых нескольких страниц закрытой книги, и для того, чтобы видеть в тумане.

Этот алгоритм – «очень хорошая идея», — сказал Дэвид Хогг, астроном и специалист по данным из Нью-Йоркского университета и Института Флатирон. Кроме аудиореконструкции, алгоритм усиления движений Фримана может помочь создавать медицинские устройства и системы безопасности, а также детекторы малых астрономических движений. «Я подумал – мы просто обязаны использовать его в астрономии».

«Об этой проблеме я очень и очень много размышлял всю мою карьеру», — говорит он. Что касается вопросов неприкосновенности личной жизни, поднятых недавними открытиями, Фриман обращается к своему опыту. Но со временем он стал думать, что «технология – это инструмент, который можно использовать по-разному. Очкарик, любитель повозиться с камерами, всю свою жизнь занимавшийся фотографией, Фриман сказал, что в начале карьеры ему не хотелось работать ни над чем, у чего был бы какой-то военный или шпионский потенциал. Он говорит, что даже в случае с военными, «существует очень широкий спектр возможностей использования вещей. Если попытаешься избежать всего, что может иметь хоть какое-то военное применение, то ничего полезного не придумаешь». И, в принципе, знать, где находятся вещи – это полезно». Можно помочь кому-то выжить.

«Мне кажется, что в мире полно всего, что ещё только предстоит открыть», — сказал он. Но его больше всего радуют не технологические возможности, а просто открытие явления, прятавшегося у всех на виду.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть