Hi-Tech

Новый голосовой переводчик Google сохраняет интонацию и голос исходного языка

Система с долгой краткосрочной памятью способна принимать голосовой ввод и обрабатывать его как спектрограмму, а затем генерировать на этой основе новую спектограмму на целевом языке. Google представила новую экспериментальную нейросеть Translatotron, способную напрямую переводить речь на другой язык, не используя ее текстовое представление, и сохранять голосовые данные и темп речи говорящего, сообщается в блоге компании. С более полным описанием новой разработки можно ознакомиться в статье, опубликованной в онлайн-репозитории научных статей arXiv.org. При определенных условиях это позволит увеличить не только скорость перевода, но и его точность.

«Translatotron — это первая сквозная модель, которая может напрямую переводить речь с одного языка на речь на другом языке, сохраняя исходные особенности речи источника», — сообщает компания в своем официальном блоге.

В рамках первой происходит автоматическое распознавание речи. В Google отмечают, что большинство современных систем машинного перевода речи построены на принципе каскадного метода, когда задача разделяется на несколько более простых задач. Затем осуществляется машинный перевод с одного языка на другой, а после этого готовый переведенный текст превращается обратно в речь, которая практически всегда отличается голосом от исходного носителя.

Однако специалисты Google в области ИИ считают, что данная система не идеальна. Каскадная система доказала свою эффективность и практичность, и используется в большинстве систем перевода, включая Google. В Google уверены, что сквозная модель перевода может превзойти каскадную, удалив среднюю часть зачади, где речь сначала переводится в текст. На каждом этапе решения проблемы могут возникать ошибки, что в целом снижает качество готового результата.

Как именно это работает — описать довольно сложно, однако переводчики вряд ли согласятся с тем, что они сначала разбивают текст в голове, затем его мысленно визуализируют, переводя его на язык перевода, а затем просто засчитывают готовый перевод. Как поясняют в Google, каскадный принцип перевода совсем не похож на то, как люди, знающие несколько языков, мысленно осуществляют перевод речи с одного языка на другой.

Спектрограммы исходного языка и переведенной речи. Качество самого перевода, следует признать, не самое лучшее, но звучит он естественнее

Разработчики Translatotron решили использовать в качестве входных данных для перевода спектрограммы (изображения, показывающие зависимость спектральной плотности мощности сигнала от времени) речи источника и генерировать на их основе новые спектрограммы на языке перевода. Имитация когнитивных способностей человека является одним из принципов машинного обучения. Исследователи отмечают, что как и любом другом случае новая система имеет свои недостатки и достоинства. Такой подход разительно отличается от каскадного метода перевода.

Таким образом, при наличии достаточной вычислительной мощности Translatotron способен выполнять перевод быстрее. Одно из преимуществ сквозного метода перевода заключается в том, что несмотря на свою сложность, этот процесс одностадийный, а не многошаговый. Но еще более важно то, что система сохраняет характер и особенности исходной речи в переводе, голосовые данные и темп речи говорящего, а не воспроизводит перевод нейтральным синтетическим голосом.

Изменение экспрессии исходной речи в речи перевода может кардинальным образом менять смысл сказанного. Те, кто понимает в лингвистике, а также те, кто занимается технологиями синтеза речи наверняка согласятся, что при переводе важно не только то, что говорит человек, но и как он это говорит. Только не обращайте внимание на качество самого перевода, важнее передача интонации. С примерами работы Translatotron можно ознакомиться, перейдя по этой ссылке.

Учитывая преимущество сохранения оригинального голоса говорящего даже в переведенной речи, дальнейшие исследования в этой области могут оказаться полезными для будущих систем перевода Google на базе AI. Разработчики Translatotron признаются, что по части точности перевода система еще не опередила традиционные каскадные системы, но, как и любая модель машинного обучения, со временем она может улучшиться.

Обсудить новость можно в нашем Telegram-чате.

Показать больше

Похожие публикации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»