Хабрахабр

Новая технология Microsoft позволяет 3D-копии реального человека говорить на любом языке

Конечно, знание дополнительного языка — это большой плюс, но случается так, что нужно обсудить срочный вопрос, по работе, например, а собеседник на твоем языке не говорит. Похоже на то, что в ближайшем будущем не будет большой проблемой, если два человека говорят на разных языках.

Она позволяет не только формировать довольно реалистичную голограмму (в виртуальной реальности), но и дает этой голограмме знание определенного языка, причем голос — тональность, громкость, тембр и другие параметры берется у оригинала голограммы. Около недели назад представитель корпорации Джулия Вайт продемонстрировала на конференции новую технологию. Похоже на то, что технология даст возможность убрать коммуникационные барьеры, которые до сих пор существуют. Таким образом, собеседник видит перед собой виртуальную копию другого человека, причем эта копия говорит на нужном языке.
Технология стала возможной благодаря смешению двух различных решений — mixed reality и neural text-to-speech. Интернет дал возможность людям общаться в режиме реального времени, а теперь есть и возможность говорить на одном языке.

Задача решалась корпорацией постепенно. Первый этап — создание реалистичной голограммы Вайт в полный рост. Для того, чтобы этого добиться. Она посетила специализированную лабораторию Microsoft, где было записано ее выступление на английском языке. Запись велась объемная, чтобы из элементов записи создать трехмерную модель человека.

Ну а после этого началась работа над копированием голоса Вайт и переводом ее речи на японский с использованием text-to-speech технологии, базирующейся на нейросетях. В итоге это было сделано — после завершения этапа ее выступление мог просмотреть любой обладатель видеоочков Microsoft HoloLens. Конечно, насколько это возможно, учитывая то, что финальная речь была на японском языке, звучание которого ну очень отличается от любых других языков. Результат получился отличным — параметры голоса были переданы почти идеально.

Естественно, это лишь демонстрация, готовить которую пришлось довольно долго. Но, как и всякая технология, с течением времени она становится более эффективной и простой в использовании. Корпорация Microsoft планирует и дальше совершенствовать и дополнять свой проект.

Их можно будет увидеть рядом с собой, причем говорить они станут на родном для зрителя языке. Сначала его применение будет точечным — например, с распространением 3D очков будут становиться более популярными выступления известных артистов или политических лидеров.

Причем можно с уверенностью предполагать, что превращение человека в голограмму, которая говорить на одном со зрителем языке будет вопросом нескольких часов, а не дней. Также можно представить себе лекции, организованные подобным образом. Главное — это оборудование для записи выступления в 3D и нейросеть, которая способна «перевести» речь спикера.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть