speech recognition

  • ХабрахабрФото Telegram-бот Silero бесплатно переводит речь в текст

    Telegram-бот Silero бесплатно переводит речь в текст

    Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут). Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об…

    Читать далее »
  • ХабрахабрФото Читать не надо слушать: как работает распознавание речи ВКонтакте

    Читать не надо слушать: как работает распознавание речи ВКонтакте

    Прочитать текстовое сообщение — быстрее, чем прослушать голосовое. Ещё по тексту удобнее искать и уточнять детали. Воспринимать числа, адреса, номера телефонов и подобную информацию тоже проще в написанном виде. С другой стороны, записать голосовое зачастую удобнее, чем напечатать сообщение — ведь это можно делать параллельно с другими занятиями, на ходу или за рулём.  Автоматическое распознавание речи помогает преодолеть этот разрыв.…

    Читать далее »
  • ХабрахабрФото [Из песочницы] Нормализация текста в задачах распознавания речи

    [Из песочницы] Нормализация текста в задачах распознавания речи

    При решении задач, связанных с распознаванием (Speech-To-Text) и генерацией (Text-To-Speech) речи важно, чтобы транскрипт соответствовал тому, что произнёс говорящий — то есть реально устной речи. Это означает, что прежде чем письменная речь станет нашим транскриптом, её нужно нормализовать. Другими словами, текст нужно провести через несколько этапов: Замена числа прописью: 1984 год -> тысяча девятьсот восемьдесят четвёртый год; Расшифровка сокращений: 2…

    Читать далее »
  • ХабрахабрФото Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

    Заменяем Google Assistant на нейросеть Порфирьевич и троллим Алису

    Вы уже видели, что вытворяет нейросеть Порфирьевич? Она дописывает текст к любой вашей фразе. И действительно забавные штуки получаются, потому что обучена она на книгах Достоевского, Толстого, Пушкина, Булгакова, Гоголя и Пелевина. И решил не откладывать это мероприятие на посленовогогода (а то ведь сами понимаете). «Озвучить все это дело голосом Левитана — получился бы отличный заменитель гугловского ассистента к новогоднему…

    Читать далее »
  • ХабрахабрФото Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр

    Бэрримор, что за шум вокруг Voximplant? Внедрили веб-сокеты, сэр

    WebSocket — это прогрессивный стандарт полнодуплексной (двусторонней) связи между клиентом и сторонним сервисом в режиме реального времени. Веб-сокеты используются для организации непрерывного обмена данными без разрыва соединения и дополнительных HTTP-запросов. Отныне вы сможете передавать текст и аудио, пользуясь преимуществами веб-сокетов в полной мере. И мы рады сообщить вам, что все это стало возможным в Voximplant благодаря новому модулю VoxEngine, который…

    Читать далее »
  • ХабрахабрФото Огромный открытый датасет русской речи версия 1.0

    Огромный открытый датасет русской речи версия 1.0

    Подробнее о нашей мотивации и о том, как всё начиналось,можно прочитать в этой статье — Огромный открытый датасет русской речи. В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. 0. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы…

    Читать далее »
  • ХабрахабрФото [Перевод] Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

    [Перевод] Высококачественная, легковесная и адаптируемая технология Text-to-Speech с использованием LPCNet

    Последние достижения в области глубокого обучения привносят существенные улучшения в развитие систем синтеза речи (далее – TTS). Это происходит благодаря применению более эффективных и быстрых методов изучения голоса и стиля говорящих, а также благодаря синтезу более естественной и качественной речи. Однако, чтобы этого достичь, большинство систем TTS должны использовать большие и сложные модели нейронных сетей, которые трудно обучить и которые…

    Читать далее »
  • ХабрахабрФото Как обойти капчу, используя звук

    Как обойти капчу, используя звук

    На просторах интернета до сих пор остаются актуальными капчи, которые в качестве опции предлагают прослушать текст с картинки, нажав на соответствующую кнопку. Если кому-то знакома картинка ниже и/или есть интерес как ее обойти, используя систему оффлайн распознавания звука, предлагается к прочтению. В статье используется старый добрый Pocketsphinx, но с определенной степенью настройки. Не будем томить интригами специалистов в области speech…

    Читать далее »
  • ХабрахабрФото [Перевод] Распознавание эмоций с помощью сверточной нейронной сети

    [Перевод] Распознавание эмоций с помощью сверточной нейронной сети

    Распознавание эмоций всегда было захватывающей задачей для ученых. В последнее время я работаю над экспериментальным SER-проектом (Speech Emotion Recognition), чтобы понять потенциал этой технологии – для этого я отобрал наиболее популярные репозитории на Github и сделал их основой моего проекта. Прежде чем мы начнем разбираться в проекте, неплохо будет вспомнить, какие узкие места есть у SER. Главные препятствия эмоции субъективны,…

    Читать далее »
  • ХабрахабрФото Огромный открытый датасет русской речи

    Огромный открытый датасет русской речи

    Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками. Мы торопимся исправить это годами длящееся недоразумение. Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников. Подробности под катом. 3: Вот данные…

    Читать далее »


Кнопка «Наверх»