И даже если часть предметов остается за кадром (например, мы видим лишь переднюю часть спинки стула, но не видим заднюю), нам совсем несложно предположить, как будет выглядеть предмет с обратной стороны. Посмотрев на фото, любой человек без труда сможет представить то, что изображено на нем как трехмерное изображение. Для ИИ же подобные трюки сложны, но недавно группа инженеров проекта DeepMind не только научила искусственный разум проделывать вышеописанное, но и переводить 2D-изображение в полноценное 3D.
Чтобы обучить искусственный разум анализировать двухмерные сцены, команда исследователей показывала ему изображения одной сцены с разных точек обзора. Новая система получила название «Генерирующая сеть запросов» (Generative Query Network — GQN). Более того, этот подход позволил научиться прогнозировать то, как будет выглядеть сцена с другого угла обзора, учитывая не только положение объектов, но и освещение. Эту цепь изображений ИИ использовал для того, чтобы понять принцип изменения объектов при смене ракурса. Как сообщил один из авторов работы Али Эслами,
Гора не изменит своего размера, что даст вам информацию о расстоянии до нее и ее размере. «Представьте, что вы смотрите на гору Эверест и передвигаетесь на метр. Приблизительно так и работает наша технология.» А если вы посмотрите на кружку и проделаете то же самое – ее положение изменится.
Увидев один и тот же объект множество раз, ИИ анализирует его характеристики, запоминает и потом использует при повторном взаимодействии. «Более того, алгоритм обучается так же, как и человек. Сейчас искусственный интеллект может воссоздать целый лабиринт, просканировав всего несколько фотографий, сделанных изнутри.»