Оцифрованы записи переговоров миссий «Аполлон» с центром управления полетами NASA
Группа исследователей оцифровала тысячи часов аудиозаписей из архивов NASA. Это — записи переговоров сотрудников центра управления полетами с астронавтами миссий «Аполлон». C их помощью исследователи надеются усовершенствовать технологии распознавания и анализа речи.
Об этом проекте и сложностях в работе над ним — расскажем под катом.
Фото Salvatore Capalbi CC BY-SA
О проекте
В 2012 году группа исследователей под руководством профессора Джона Хансена (John Hansen) из Техасского университета в Далласе обратилась в NASA с просьбой предоставить им доступ к аудиоархивам агентства. Исследователи хотели использовать записи переговоров астронавтов с центром управления полетами NASA для разработки и обучения алгоритмов распознавания речи.
Доступ исследователям предоставили, однако они столкнулись с неприятной проблемой — оказалось, что большая часть аудиозаписей не была оцифрована и хранилась в архивах NASA на пленках.
Ученые начали оцифровывать все записи из космической миссии «Аполлон-11» и большую часть записей из «Аполлона-1» «Аполлона-13» и «Джемини-8». Команда решила заняться этим вопросом, дав старт проекту, который продлился больше пяти лет.
Записи можно было воспроизвести только на специальных аппаратах SoundScriber, которые делались в 1960-е для NASA. Задача оцифровки старых пленок оказалась технически сложной. Всего в мире существует две таких машины, сделанные специально для агентства.
Однако до наших дней в рабочем состоянии сохранился лишь один SoundScriber. Установленные в командном центре, аппараты писали на пленку звук из 30 разных источников на 30 отдельных дорожек. Учитывая, что на руках у исследователей было бесчисленное количество пленок с записями по 14 часов каждая, то проект мог затянуться на долгое время. При этом машина могла воспроизводить только одну дорожку за раз.
«Даже если заниматься этим круглосуточно, оцифровка архива только для «Аполлона-11» заняла бы у нас примерно 170 лет», — сказал Хансен.
Для решения проблемы ученые модифицировали SoundScriber, разработав новую считывающую головку, которая позволяла читать 30 дорожек одновременно. Плюс было реализовано решение для параллельной их обработки.
Затем исследователи создали программу, которая не только распознавала речь, но и определяла, кто и когда говорил, и размещала записи в хронологическом порядке. В итоге архив всех четырех миссий оцифровали всего за три месяца.
Часть записей уже есть на сайте Explore Apollo, который посвящен миссии «Аполлон-11». Архив будет общедоступным для других ученых и сотрудников университетов.
Почему это важно
Одной из главных проблем NLP-систем является задача распознавания речи в зашумленной обстановке — когда говорят сразу множество людей, присутствуют посторонние звуки. Команда исследователей и Джон Хансен надеются, что их работа позволит сделать шаг в перед в её разрешении.
Более того, часто у сотрудников центра в Хьюстоне в речи присутствует ярко выраженный техасский акцент, а распознавание разных вариантов произношения — не самая сильная сторона систем ИИ. Аудиоархивы NASA — это записи разговоров множества людей одновременно в реальной ситуации, связанной с решением ряда сложнейших задач. Использование таких записей для тренировки алгоритмов ML позволит лучше «подготовить» машины для работы в сложных условиях.
Обычно мы видим только работу астронавтов, но упускаем из вида труд людей, которые сопровождают полет с Земли. Джон Хансен также считает, что их труд позволит приоткрыть дверь в мир космических полетов для широкой общественности. Как говорит Хансен — это шанс узнать о «героях, стоящих за героями». Эти записи дадут возможность заглянуть в самое сердце NASA.
Фото NASA
Другие записи
Ранее в NASA уже публиковали некоторые аудиозаписи из своих архивов. В 2014 на сайте агентства были размещены записи переговоров членов экипажа на борту «Аполлона-11». Все записи приведены в оригинальном виде, с техническими помехами и длинными паузами. Аудио в некоторые моменты оставляет желать лучшего, однако рядом с соответствующими файлами проставлены временные метки, по которым можно свериться с текстовой расшифровкой.
Там представлены записи как старых полетов (от 1982 года), так и современных запусков. Также записи переговоров во время миссий NASA можно найти в официальном архиве агентства на сайте archive.org.
Например, на этом ресурсе есть аудиозаписи, сделанные во время выхода в открытый космос и решении нештатной ситуации на борту станции в августе 2007 года. Еще в интернете можно найти записи переговоров космонавтов на МКС. Там есть записи, на которых космонавты с борта МКС отвечают на вопросы и рассказывают, как они отдыхают и что выращивают.
Все эти архивы и проекты позволяют лучше познакомиться с процессами, происходящими на орбите в космосе и в штабе на Земле.
Больше интересного о звуке — в нашем «Мире Hi-Fi»: