Hi-Tech

Математики из Армении создали сервис, который убирает посторонние звуки во время звонков

С помощью нейросетей Krisp определяет раздражающие шумы (вроде плача ребёнка или шуршания бумаги) и в реальном времени вырезает их из аудиопотока.

В закладки

Интерфейс Krisp

Krisp — это приложение для Mac, которое в режиме реального времени устраняет посторонние звуки во время звонков через Skype, Slack и другие VoIP-сервисы.

Первый способ подходит для ситуаций, когда собеседник (или собеседники) находится на оживлённой улице. Пользователь может выбрать, какие шумы блокировать: входящие или исходящие.

Например, если звонок застал его в кофейне по пути на работу. Второй — когда пользователь хочет скрыть своё окружение.

Приложение способно различать и подавлять такие звуки, как шум улицы, кафе или аэропорта, детский плач, шуршание бумаги, стук клавиш и многие другие.

Пример использования сервиса

Технология

Krisp — продукт американской компании с армянскими корнями 2Hz, которую в 2017 году основали два друга: Давит Багдасарян и Артавазд Минасян.

Шумоподавление сервиса работает благодаря технологии машинного обучения.

Во втором — примеры чистой речи, записанной в студии. Команда проекта собрала два датасета: в первом было несколько десятков тысяч аудиозаписей с различными звуками-шумами (например, автомобильной сигнализации).

Затем разработчики стали генерировать сэмплы — накладывать шумы на чистую речь и создавать множество вариантов комбинаций с разными звуками и уровнями громкости.

Например:

  • Тихая речи с громким звуком пожарной сирены.
  • Громкая речь с громким звуком пожарной сирены.
  • Громкая речь с тихим звуком пожарной сирены.
  • Тихая речь с тихим звуком пожарной сирены и так далее.

Если грубо: давали образец речи с шумами, образец чистой речи без шумов и предлагали убрать лишнее. Далее они создали нейросеть и использовали получившиеся сэмплы для её обучения.

И повторяли процедуру множество раз, пока нейросеть не научилась эффективно распознавать и убирать шумы.

Идея

Давит Багдасарян родился и вырос в Армении, а также получил степень магистра в области компьютерных наук в Ереванском государственном университете.

Со студенческих лет он работал в местных аутсорс-компаниях, которые создавали ИТ-продукты для зарубежных клиентов — в том числе из США.

В 2008 году руководство предложило Багдасаряну переехать в США и возглавить департамент информационной безопасности. Одним из таких заказчиков была компания Validity Sensors, которая выпускала сканеры отпечатков пальцев для ноутбуков и смартфонов.

Компания занималась решениями в сфере безопасности, и Багдасарян отвечал за разработку протокола FIDO (Fast IDentity Online), который потом стали использовать Google, Facebook, GitHub, Microsoft и другие компании. Он проработал в Validity Sensors четыре года, а затем ушёл в стартап Nok Nok Labs, который открыл один из его бывших руководителей.

Давит Багдасарян

В 2016 году устроился в компанию Twilio, которая разрабатывает API для корпоративных коммуникаций. Со временем он заскучал и решил сменить сферу.

Например, Uber использует Twilio для звонков между пассажирами и водителями. С помощью ПО Twilio компании могут принимать и совершать звонки, а также отправлять и принимать SMS.

Чаще всего звук ухудшался именно из-за шума на заднем плане», — вспоминает Багдасарян. «Мы постоянно ломали голову — как улучшить качество аудио.

Мне тогда казалось: «Окей, это классическая проблема, которую может решить машинное обучение».

Мне было любопытно — почему никто ещё не решил её. Нужно научить нейросеть, что есть шум, а что — человеческий голос, и разделить их.

Давит Багдасарян

Какое-то время он работал удалённо, находясь в Армении. У предпринимателя была и личная причина взяться за проблему. Из-за разницы во времени ему приходилось коммуницировать с командой по вечерам, и он не знал, где его застанет очередной звонок: в гостях с шумными детьми, в кафе или где-то ещё.

«И я подумал, что было бы круто иметь под рукой сервис, который скрывал бы окружение, чтобы другие участники беседы не могли понять, где ты находишься», — вспоминает Багдасарян.

К тому времени у него уже было несколько компаний в ИТ-сфере. В конце 2016 года Багдасарян рассказал об этой идее своему приятелю, доктору математических наук Артавазду Минасяну. Кроме того, он как раз искал интересные проекты в сфере машинного обучения.

Минасян начал изучать, как можно реализовать идею, и привлёк знакомого математика Степана Саргсяна (сейчас он главный научный сотрудник 2Hz).

Через несколько недель после возвращения они вместе с Минасяном открыли 2Hz. Осенью 2017 года Багдасарян окончательно решил уволиться из Twilio и переехать всей семьёй в Армению.

Трудности разработки

Первые несколько месяцев партнёры посвятили разработке технологии шумоподавления (приложение Krisp появилось только спустя полгода) и для этого подобрали команду исследователей.

И так получилось, что я оказался единственным членом команды без докторской степени», — вспоминает Багдасарян. «Среди наших сотрудников было шесть докторов наук.

Для этого им пришлось решить ряд инженерных задач. Компании требовалось разработать эффективные алгоритмы, которые могли бы в режиме реального времени вырезать посторонние звуки из аудио.

Если нейросеть не успеет обработать аудио за это время, общение станет проблематичным. При естественном разговоре задержка между передачей речи не должна превышать 200 миллисекунд.

Например, абонент Б услышит первую фразу собеседника и ответит на неё в тот момент, когда абонент А будет произносить уже вторую или третью — они запутаются.

На задержку влияют три фактора — скорость интернет-соединения, скорость вычислений нейросети и скорость вычислений аудиокодеков.

На скорость интернет-соединения пользователей разработчики повлиять не могли. Для работы современных кодеков нужно от 5 до 80 миллисекунд.

А она также зависела от трёх факторов. Соответственно, им требовалось оптимизировать скорость работы нейросети.

  • Вычислительной мощности платформы пользователя — нейросеть не должна быть слишком «прожорливой».
  • Архитектуры нейросети — чем эффективнее шумоподавление, тем больше операций и расчётов необходимо выполнить.
  • Частоты дискретизации аудиосигнала. Это качество звука. Например, частота дискретизации при телефонной связи — 8 кГц, а в большинстве VoIP-приложений — 16 кГц. Чем выше этот параметр, тем больше времени и ресурсов необходимо для работы нейросети.

Команде 2Hz потребовалось несколько месяцев на поиск оптимального сочетания между качеством шумоподавления и быстродействием.

Мы тогда сами не совсем отчётливо понимали, во что ввязываемся.

Но с другой стороны, если бы мы знали, что нас ждёт впереди, то могли бы испугаться и сдаться. У нас тогда не было экспертов в команде, только математики.

Давит Багдасарян

Все вычисления происходят за 15 миллисекунд. В итоге они разработали технологию, которая позволяет не только убирать шумы, но улучшать качество звука: автоматически заполнять прерывания, регулировать громкость и увеличивать частоту дискретизации.

При этом, согласно спецификации, для вычислений в реальном времени минимальная частота процессора должна быть больше 200 МГц.

У Qualcomm 845 (применяется в Google Pixel 3, Samsung Galaxy Note 9, Xiaomi Mi Mix3) по четыре ядра с частотой 2,8 ГГц и 1,8 ГГц. Тактовая частота процессоров, которые используются в современных смартфонах, гораздо выше.

Акселератор и инвестиции

Багдасарян думал, что как только команда разработает алгоритм — к 2Hz выстроится очередь из клиентов, желающих приобрести технологию.

«Сейчас я понимаю, что это был очень наивный взгляд на бизнес», — рассуждает предприниматель. Однако этого не произошло. Один знакомый посоветовал Багдасаряну пройти программу акселерации, чтобы узнать о потребностях бизнеса.

Почему бы не выйти и не изучить его?». Он сказал: «Вы что, действительно хотите вести бизнес из гаража, даже не зная, что действительно нужно миру?

Какой продукт ему нужен?».
Это был довольно простой вопрос, но у нас действительно не было ответа на вопросы: «А что на самом деле хочет мир?

Давит Багдасарян

У Багдасаряна остались контакты людей из Кремниевой долины, и они познакомили его с представителями акселератора из Беркли SkyDeck, который инвестирует в исследовательские компании.

Кроме того, предприниматели привлекли ещё около $400 тысяч от двух фондов из Армении (Granatus Ventures и SmartGateVC) и американского фонда HIVE Ventures, который инвестирует в стартапы с армянскими корнями. SkyDeck одобрил заявку 2Hz и сделал посевные инвестиции в размере $100 тысяч.

Первоначально Багдасарян планировал продавать лицензии на технологию удаления нежелательных звуков производителям техники (например, смартфонов или гарнитур), автомобилей (для улучшения аудиосистем), телекоммуникационным операторам (для улучшения качества связи), call-центрам и разработчикам стриминговых сервисов.

Некоторые эксперты акселератора знакомили предпринимателей с представителями компаний, которых могла заинтересовать их технология.

Однако переговоры шли «крайне медленно» — они уже использовали технологии шумоподавления (пусть и менее совершенные) и не видели смысла что-то менять.

Тогда у команды 2Hz возникла идея — разработать продукт для обычных потребителей, рассказать с его помощью рассказать о технологии и привлечь enterprise-клиентов. Но Багдасарян замечал, что люди приходят в восторг, когда он показывает им примеры работы алгоритмов.

И хотя в то время компании не удалось заинтересовать крупных клиентов, на продукт обратили внимание американские инвесторы. В апреле 2018 года 2Hz стала разрабатывать приложение Krisp.

В посевном раунде, который состоялся летом 2018 года, приняли участие два крупных фонда — Sierra Ventures и Shanda Group. Увидев работу технологии на практике, они оценили её перспективы и вложили в компанию $1,5 млн.

Команда 2Hz

Продвижение и популярность

В конце месяца Багдасарян опубликовал статью о продукте и технологии в блоге для разработчиков компании Nvidia. Компания представила Krisp в октябре 2018 года.

По словам предпринимателя, материалом поделились более тысячи пользователей в социальных сетях, что стоило ему бессонной ночи: он до утра отвечал на сообщения с вопросами.

Ночью 16 ноября один из пользователей опубликовал ссылку на Krisp в сообществе Hacker News, а утром неизвестный анонсировал продукт на платформе Product Hunt.

Это не входило в планы 2Hz — у команды не было необходимых маркетинговых материалов, и Багдасарян попытался связаться с администрацией сервиса, чтобы она удалила упоминание Krisp.

Однако когда представитель администрации наконец-то вышел на связь, Krisp уже имел все шансы стать продуктом дня — и предприниматель решил оставить всё как есть.

Впоследствии Krisp занял первое место в номинации «Продукт дня», третье место в номинации «Продукт недели» и четвёртое в номинации «Продукт месяца», а также первое место в номинации «Продукт года» в категории «Звук и аудио».

Krisp стал лучшим маркетинговым средством для нашей технологии.

Сколько будет стоить интеграция вашей технологии в наш бизнес?». Не проходит и дня, чтобы какая-нибудь крупная компания не прислала нам письмо вроде: «Привет!

Давит Багдасарян

По словам Багдасаряна, сейчас у версии для Mac около 20 тысяч установок и около 6000 активных пользователей в неделю (активными считаются те, кто хотя бы раз в неделю воспользуется приложением).

В ближайшее время 2Hz планирует выпустить версию Krisp для Windows, что увеличит целевую аудиторию приложения во много раз, рассуждает предприниматель.

Например, компания планирует таргетировать продукт на геймеров, которые часто создают групповые чаты на несколько десятков человек на платформе Discord и в других VoIP-сервисах

Поэтому наш продукт может привлечь геймеров», — рассказывает Багдасарян. «Технология шумоподавления Discord не справляется с такими ситуациями, когда участники звонка находятся в шумном окружении.

В будущем компания планирует ввести монетизацию сервиса, однако пока Багдасарян затрудняется ответить на вопрос о конкретной модели и тарифах.

Пока у компании нет платящих клиентов, но она «близка к первой выручке». Кроме того, сейчас 2Hz ведёт переговоры с крупными enterprise-клиентами о лицензировании технологии шумоподавления — как и планировалось изначально.

Это типичный сценарий для ИТ-компании: нужно время и ресурсы, чтобы закончить создание технологии. Мы развиваемся на венчурные инвестиции.

Но когда всё готово, выручка растёт очень быстро.

Давит Багдасарян

В будущем 2Hz планирует выйти на рынок сервисов для улучшения качества видео.

Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть