Hi-Tech

Нейросеть услышала голоса людей и нарисовала их портреты

Готовьтесь удивляться дальше, потому что исследователи из Массачусетского технологического института создали нейросеть Speech2Face, которая способна рисовать портреты людей, просто послушав их голоса. В последнее время нейронные сети удивляют своими умениями — могли бы вы десять лет назад поверить в то, что компьютер сможет «оживлять» портреты Достоевского и Мэрилин Монро? Технология пока далека от идеала, но ее способность определять пол, национальность и возраст человека впечатляет.

Дорожки с видео и звуком разделены, поэтому система смогла изучить каждый тип материала максимально подробно. Для обучения нейросети использовался набор AVSpeech с миллионом коротких видеороликов с тысячами говорящих людей. Другая часть алгоритма изучала спектрограмму голоса и накладывала на полученные портреты дополнительные изменения — в итоге получился примерный портрет каждого разговаривающего человека. На первом этапе работы, алгоритм VGG-Face изучал фрагменты видео и создавал портреты фигурирующих на них людей в анфас и нейтральным выражением лица.

Нейросеть для создания портретов на основе голоса — уже реальность

Впрочем, исследователи уверяют, что они изначально не хотели создать максимально похожий портрет человека — на тон и интонацию человеческого голоса влияют множество факторов, поэтому идеального результата они бы все равно не получили. Если сравнить лицо человека с видео и предложенный алгоритмом вариант, то можно найти множество отличий. Зато нейронная сеть отлично справляется с тем, что важно исследователям, а именно с точным определением пола, национальности и возраста.

Также было обнаружено, что алгоритм лучше воссоздает лица с европейской и азиатской внешностью, но это связано только с тем, что на обучающих видеороликах было не равное количество лиц разных национальностей. Авторы работы отметили, что на данный момент алгоритм слабоват при определении возраста, но они в силах повысить точность.

Зачем нужна нейросеть?

Как вариант, при помощи нее когда-нибудь может быть создан сервис, где виртуальный аватар пользователя создается автоматически, на основе его голоса. Чем же может быть полезна эта технология в будущем? Послушать голоса и посмотреть на воссозданные на их основе портреты можно на сайте проекта. Новое исследование также несет большую научную пользу — изучив данные, ученые могут найти взаимосвязь между внешностью человека и его голосом.

Своими смелыми предположениями делитесь в комментариях, и присоединяйтесь к общению в нашем Telegram-чате. Какое применение такой нейронной сети можете придумать вы?

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть