ASR

Хабрахабр
Лида Шиндлер21.11.2023
0 0

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

Недавно мы представили нашу новую умную колонку — Яндекс Станцию Миди. Она больше, чем Лайт или Мини, поэтому в ней уместились вуфер и два высокочастотных динамика с суммарной мощностью звука 24 Вт. Но при этом она легче и компактнее, чем Станция 2 или Макс. Кроме того, в Миди мы внедрили технологии, которые позволили Алисе научиться новому. В частности, благодаря более…
Читать далее »
Хабрахабр
Andy01.08.2023
0 0

AI доступный каждому разработчику

Долгое время я прекрасно обходился без использования технологий искусственного интеллекта. Одни задачи можно было реализовать без всякого ИИ, а для других или готовых моделей не было или это были какие-то коммерческие облачные API. В последнее время всё сильно изменилось и волна популярности искусственного интеллекта принесла множество крутейших моделей, позволяющих реализовать новые идеи или переосмыслить старые. Казалось бы, есть и локально…
Читать далее »
Хабрахабр
Григорий Воронцов20.01.2023
0 1

Обновляем сравнение систем распознавания русского языка

Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали. По сравнению с предыдущим исследованием изменилось следующее: Мы не стали опрашивать Google; На рынок с распознаванием речи вышли VK и якобы МТС, но нам не…
Читать далее »
Хабрахабр
Марк Левин17.10.2022
0 4

Считаем, где дешевле распознавание речи — в облаке или на своем сервере

Когда вы выбираете ASR, важно определиться не только с вендором, но и с моделью закупки. Конечно, если вы банк, облачная система вам не подойдет по умолчанию. Но для всех остальных кейсов мы попробуем сделать расчет и определить, при каком объеме трафика будет выгоднее уже не платить за облако, а поставить решение в контур. Посмотрим, сколько стоит распознавание в облаке у…
Читать далее »
Хабрахабр
Стас Молотов11.10.2022
0 1

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

Некоторое время назад к нам пришел клиент – крупный металлургический комбинат. Продукцию комбината перевозят поезда. А во время железнодорожных грузоперевозок машинисты и диспетчеры должны переговариваться согласно регламенту. За переговоры не по регламенту - штраф. Поэтому “боль” клиента была сильной: получить систему автоматического контроля регламента переговоров по рации во избежание финансовых потерь и снижения риска катастроф. Мы опрометчиво согласились. А когда…
Читать далее »
Хабрахабр
Марк Левин10.10.2022
0 1

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Распознавание речи в действии Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится прикрутить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").…
Читать далее »
Хабрахабр
Лида Шиндлер29.08.2022
0 0

Как мы сделали распознавание речи нескольких говорящих

В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственный интеллект? Можно ли добиться высокого качества распознавания речи, когда на записи говорят несколько человек? Не так давно мы отметили 1 миллион проданных устройств с виртуальными ассистентами Салют.…
Читать далее »
Хабрахабр
Ксюша Родионова11.04.2022
0 0

Нюансы распознавания речи. Восстанавливаем пунктуацию, числа и заглавные буквы

В задачах распознаваниях речи при переводе аудио в текст есть дополнительные этапы, делающие этот текст более человекочитаемым. Например, предложение "привет хабр сегодня мы сделаем двадцать шесть моделей по распознаванию голоса" будет выглядеть лучше в таком виде: "Привет, хабр. Сегодня мы сделаем 26 моделей по распознаванию голоса". Другими словами, сегодня мы поговорим про то, как автоматически восстановить пунктуацию и капитализацию (сделать…
Читать далее »
Хабрахабр
Марк Левин01.04.2022
0 0

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Команда SberDevices запустила бесплатный бот в Telegram, который конвертирует русскоязычные голосовые сообщения и аудиофайлы в текстовый формат. Бот работает на основе технологии распознавания речи SmartSpeech и станет удобным инструментом для журналистов, копирайтеров, переводчиков и представителей других профессий, которые работают с текстами. Он позволит сэкономить часы работы, сократить рутину и значительно повысит эффективность при производстве контента. Также бот незаменим в ситуациях,…
Читать далее »
Хабрахабр
Лида Шиндлер03.03.2022
0 0

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Сейчас для всех желающих доступны два наших сервиса для распознавания речи: Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения); Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки. Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи,…
Читать далее »

Загрузить

ASR

Станция Миди и голосовое управление Zigbee-устройствами без интернета. История разработки

AI доступный каждому разработчику

Обновляем сравнение систем распознавания русского языка

Считаем, где дешевле распознавание речи — в облаке или на своем сервере

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Как мы сделали распознавание речи нескольких говорящих

Нюансы распознавания речи. Восстанавливаем пунктуацию, числа и заглавные буквы

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

В честь 35-летия Super Mario Bros. представили новую расцветку Switch, трейлер Super Mario 3D World + Bowser’s Fury и другое

С начала года Ford продала всего 41 326 электромобилей и заняла 7 % рынка

Apple активизировала разработку неинвазивного монитора уровня сахара в крови

Health Break Reminder 1.1 (Windows)

Имитационная модель процесса обработки материала резанием на токарном станке с ЧПУ

Brave 1.0.92 для Android (Android)

[Из песочницы] Со склада в Дагестане — в программисты: как я стал iOS-разработчиком с нуля

Halo получила ещё один удар — из Microsoft, похоже, ушёл давний директор франшизы

Сэм Альтман формирует мировую коалицию для развития инфраструктуры, нужной искусственному интеллекту

Евросоюз проверит китайские ветрогенераторы на предмет нечестной конкуренции

Сенатор США заявила о возможном продлении срока продажи TikTok до 1 года

Сэм Альтман формирует мировую коалицию для развития инфраструктуры, нужной искусственному интеллекту

Евросоюз проверит китайские ветрогенераторы на предмет нечестной конкуренции

Сенатор США заявила о возможном продлении срока продажи TikTok до 1 года

ИИ подождёт: AWS ввела лимиты на облачные ресурсы в Ирландии из-за дефицита энергии

Foxconn рассматривает возможность внедрения системы сменных генеральных директоров

Апрель 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30