speech to text

  • ХабрахабрФото Использование речевых технологий Яндекса на примере аудиосообщений Telegram или чат-бот для распознавания аудиосообщений

    Использование речевых технологий Яндекса на примере аудиосообщений Telegram или чат-бот для распознавания аудиосообщений

    В данной статье мы рассмотрим применение речевых технологий, предоставленных компанией Яндекс в контексте распознавания аудиосообщений в Telegram – популярном мессенджере, объединяющем миллионы пользователей по всему миру. Оглавление Регистрируемся и получаем API-ключ Получаем токен для чат-бота Пишем основу чат-бота Посылаем запросы в Яндекс.Облако Дорабатываем чат-бота и смотрим на результат Изначально функционал получения текст из аудио мне нужен был для проекта, о…

    Читать далее »
  • ХабрахабрФото Обновляем сравнение систем распознавания русского языка

    Обновляем сравнение систем распознавания русского языка

    Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали. По сравнению с предыдущим исследованием изменилось следующее: Мы не стали опрашивать Google; На рынок с распознаванием речи вышли VK и якобы МТС, но нам не…

    Читать далее »
  • ХабрахабрФото [Перевод] Создаем сервис для Serverless перевода голоса, как в Cyberpunk 2077

    [Перевод] Создаем сервис для Serverless перевода голоса, как в Cyberpunk 2077

    На днях мне наконец-то удалось поиграть в Cyberpunk 2077, и я заметил, что в игре есть одна интересная особенность: Когда персонаж говорит на иностранном языке, текст сначала появляется над ним в оригинале, а затем как бы вживую переводится на английский. Тогда я задался вопросом: сколько работы потребуется, чтобы создать нечто подобное с помощью современного DL-стека? Можно ли сделать это за…

    Читать далее »
  • ХабрахабрФото Telegram Premium отправляет голосовые сообщения клиентов в сервисы Google

    Telegram Premium отправляет голосовые сообщения клиентов в сервисы Google

    Говорят, царь — ненастоящий! Буду краток. На днях Телеграм выкатил премиум-подписку и Дуров высказался за все хорошее, мол цитата: "This will herald a new, user-centric era in the history of social media services". Сейчас я случайно натолкнулся на пункт 7. 4 Terms of Service Телеграма, согласно которому ваши голосовые сообщения отправляются в "Google LLC, subsidiary of Alphabet Inc.". Личную оценку…

    Читать далее »
  • ХабрахабрФото Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

    Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

    Сейчас для всех желающих доступны два наших сервиса для распознавания речи: Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения); Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки. Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи,…

    Читать далее »
  • ХабрахабрФото Бесплатное распознавание речи для всех желающих

    Бесплатное распознавание речи для всех желающих

    После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/. Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман: Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится,…

    Читать далее »
  • ХабрахабрФото Последние обновления моделей распознавания речи из Silero Models

    Последние обновления моделей распознавания речи из Silero Models

    Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка. В этот раз мы можем порадовать вас: Как большими, так и маленькими моделями; Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей; Как обычно — качество на уровне премиум моделей Google…

    Читать далее »
  • ХабрахабрФото Насколько Быстрой Можно Сделать Систему STT?

    Насколько Быстрой Можно Сделать Систему STT?

    Нам приходилось слышать абсолютно разные оценки скорости (ну или наоборот — оценки потребности в железе) систем распознавания речи, отличающиеся даже на порядок. Особенно радует, когда указаны системные требования из которых следует, что метрики сильно лучше, чем лучшие state-of-the-art системы из bleeding edge статей, а на практике иногда оказывается, что метрики рассчитаны в надежде, что "покупают для галочки и никто пользоваться…

    Читать далее »
  • ХабрахабрФото Мы опубликовали современные STT модели сравнимые по качеству с Google

    Мы опубликовали современные STT модели сравнимые по качеству с Google

    Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков: Английский; Немецкий; Испанский; Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты…

    Читать далее »
  • ХабрахабрФото [Из песочницы] Нормализация текста в задачах распознавания речи

    [Из песочницы] Нормализация текста в задачах распознавания речи

    При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать. Другими словами, текст нужно провести через несколько этапов: Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год; Расшифровка сокращений: 2…

    Читать далее »


Кнопка «Наверх»