Hi-Tech

Разработана офлайн-система распознавания речи, работающая с точностью в 97%

А для того, чтобы сделать их доступными для каждого, разработчики передают все данные по интернету, что не дает возможности использовать их в офлайне. Как правило, различные системы распознавания речи, лиц, переводчики и прочие используют огромные серверные мощности для своей работы. Не так давно Microsoft и Google уже сделали свои переводчики на основе нейросетей полностью независящим от сети, а сейчас настало время алгоритмов распознавания голоса. Однако современные алгоритмы нейросетей помогают добиться действительно потрясающих результатов.

Их технология получила название EdgeSpeechNets. За разработку отвечает группа исследователей из Университета Ватерлоо и стартапа под названием DarwinAI.

«В этом исследовании мы используем стратегию создания архитектуры с низким уровнем нагрузки на устройство, но со всеми плюсами подхода с использованием мощной нейросети с глубоким машинным обучением.»

При этом он был способен выявлять известные ему ключевые слова даже из очень быстрого потока речи. Для начала эксперты создали прототип будущей системы, который выполнял распознавание речи, но обладал ограниченным словарным запасом. Эта формула и использовалась в дальнейшем для проектирования нейросети, которая обладала бы высокой производительностью, но была бы не требовательна к железу. После этого полученные данные использовались для преобразования звукового сигнала в математическую формулу.

Для этого использовалось хранилище Google Speech Commands, которое содержит 65000 1-секундных звуковых образцов. После этого ученые решили испытать получившуюся программу. В итоге одна из версий системы, а именно EdgeSpeechNet-D, показала просто отличный результат, достигнув точности в 97% на довольно слабом смартфоне Motorola Moto E c процессором 1,4 ГГц.

Полученные результаты демонстрируют, что EdgeSpeechNet смогла достичь самой современной производительности, требуя значительно меньше вычислительной мощности, что делает их очень подходящими для использования в мобильных устройствах и приложениях.» «EdgeSpeechNet имеет более высокую точность распознавания при гораздо низких затратах на вычисления.

Эту и другие новости вы можете обсудить в нашем чате в Телеграм.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть