speech to text
-
Хабрахабр
Использование речевых технологий Яндекса на примере аудиосообщений Telegram или чат-бот для распознавания аудиосообщений
В данной статье мы рассмотрим применение речевых технологий, предоставленных компанией Яндекс в контексте распознавания аудиосообщений в Telegram – популярном мессенджере, объединяющем миллионы пользователей по всему миру. Оглавление Регистрируемся и получаем API-ключ Получаем токен для чат-бота Пишем основу чат-бота Посылаем запросы в Яндекс.Облако Дорабатываем чат-бота и смотрим на результат Изначально функционал получения текст из аудио мне нужен был для проекта, о…
Читать далее » -
Хабрахабр
Обновляем сравнение систем распознавания русского языка
Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали. По сравнению с предыдущим исследованием изменилось следующее: Мы не стали опрашивать Google; На рынок с распознаванием речи вышли VK и якобы МТС, но нам не…
Читать далее » -
Хабрахабр
[Перевод] Создаем сервис для Serverless перевода голоса, как в Cyberpunk 2077
На днях мне наконец-то удалось поиграть в Cyberpunk 2077, и я заметил, что в игре есть одна интересная особенность: Когда персонаж говорит на иностранном языке, текст сначала появляется над ним в оригинале, а затем как бы вживую переводится на английский. Тогда я задался вопросом: сколько работы потребуется, чтобы создать нечто подобное с помощью современного DL-стека? Можно ли сделать это за…
Читать далее » -
Хабрахабр
Telegram Premium отправляет голосовые сообщения клиентов в сервисы Google
Говорят, царь — ненастоящий! Буду краток. На днях Телеграм выкатил премиум-подписку и Дуров высказался за все хорошее, мол цитата: "This will herald a new, user-centric era in the history of social media services". Сейчас я случайно натолкнулся на пункт 7. 4 Terms of Service Телеграма, согласно которому ваши голосовые сообщения отправляются в "Google LLC, subsidiary of Alphabet Inc.". Личную оценку…
Читать далее » -
Хабрахабр
Наши сервисы для бесплатного распознавания речи стали лучше и удобнее
Сейчас для всех желающих доступны два наших сервиса для распознавания речи: Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения); Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки. Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи,…
Читать далее » -
Хабрахабр
Бесплатное распознавание речи для всех желающих
После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/. Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман: Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится,…
Читать далее » -
Хабрахабр
Последние обновления моделей распознавания речи из Silero Models
Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка. В этот раз мы можем порадовать вас: Как большими, так и маленькими моделями; Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей; Как обычно — качество на уровне премиум моделей Google…
Читать далее » -
Хабрахабр
Насколько Быстрой Можно Сделать Систему STT?
Нам приходилось слышать абсолютно разные оценки скорости (ну или наоборот — оценки потребности в железе) систем распознавания речи, отличающиеся даже на порядок. Особенно радует, когда указаны системные требования из которых следует, что метрики сильно лучше, чем лучшие state-of-the-art системы из bleeding edge статей, а на практике иногда оказывается, что метрики рассчитаны в надежде, что "покупают для галочки и никто пользоваться…
Читать далее » -
Хабрахабр
Мы опубликовали современные STT модели сравнимые по качеству с Google
Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков: Английский; Немецкий; Испанский; Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты…
Читать далее » -
Хабрахабр
[Из песочницы] Нормализация текста в задачах распознавания речи
При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать. Другими словами, текст нужно провести через несколько этапов: Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год; Расшифровка сокращений: 2…
Читать далее »