Hi-Tech

Потерявший слух советский математик устроился в Google, чтобы помочь другим людям с нарушениями слуха и речи

Дмитрий Каневский разрабатывает продукты, которые помогают людям общаться с близкими, коллегами, мобильными устройствами и целым миром.

В закладки

​Дмитрий Каневский на мероприятии AI in Action

Тем не менее он научился читать по губам, закончил МГУ, стал кандидатом наук, переехал в США и сейчас работает исследователем в Google.

Например, прибор, помогающий «слышать» с помощью кожи, и приложение, которое переводит в текст речь людей с сильным акцентом, заиканием и другими особенностями речи. Последние 40 лет он разрабатывает устройства и технологии, которые помогают людям с нарушениями слуха.

Изобретатель рассказал, как создал свой аппарат для чтения с губ, устроился в Google и помог разработать алгоритм для автоматического создания титров на YouTube.

Конструктор

Но меня научили читать по губам, и я пошёл в обычную школу. В детстве я потерял слух.

Тогда я не испытывал больших сложностей в общении. У меня было много друзей. Там были другие ребята и сложные технологические предметы — учиться приходилось в основном по учебникам. Трудно стало, когда в восьмом классе я перешёл во вторую математическую школу в Москве.

Тем не менее после школы я поступил в МГУ — в 1969 году, а потом ещё восемь лет учился математике и стал кандидатом наук, написав диссертацию по алгебраической геометрии.

В ней ты один на один с проблемой. Думаю, математика делала меня более независимым. Это соответствует моему характеру. Ты можешь сфокусироваться на ней, бороться с ней.

Она переезжала со своими родителями в Израиль, и я решил отправиться вслед за ней. Заканчивая диссертацию, я встретил будущую жену.

Тогда я разработал аппарат, который помогал читать с губ. Я знал, что в новой стране не буду так же хорошо читать по губам, как в СССР, и не смогу свободно общаться с людьми.

Проблема была в том, что некоторые звуки, например «с», «ш», «и», «а», находятся на высоких частотах, поэтому их сложно почувствовать кожей. Прибор крепился на теле и позволял «слышать» кожей — улавливал звуки и переводил их в вибрации. Тогда я придумал переводить высокие частоты в низкие.

Мне удалось сделать настолько маленький аппарат, что его под одеждой не замечали другие люди.

Я получил разрешение вывезти устройство в Израиль, и оно помогало мне говорить на иврите, в котором большое количество слов с «высокочастотными» звуками вроде «шабат», «шалом» и так далее.

Он сказал, что это великолепная вещь и нужно открыть компанию по продаже устройства. В Израиле я показал аппарат одному доктору.

В месяц я зарабатывал 2000 шекелей, это было в 1981 году. Мы назвали её SensorAid, и параллельно с этим стартапом я ещё работал математиком в институте Вейцмана.

В одной больнице его сравнили с разработкой компании Cohler, которая вживляла передатчик в ухо человека, чтобы он мог считывать звуки. Аппарат потом применяли во многих странах — он был универсален для всего мира.

Мой аппарат показал такой же результат, как у Cohler, но их разработка стоила $25 тысяч и требовала серьёзной операции, а мой вариант был в несколько раз дешевле и не требовал вмешательства хирургов.

Сперва я отправился работать в академические институты в Германии и США, а после перешёл в IBM. В 1984 году американская компания Spectro выкупила авторские права на аппарат (сумму сделки Каневский назвать отказался — vc.ru).

Работа в IBM

В начале работы я разработал алгоритм для распознавания речи.

Чтобы перевести речь в текст, системе требовалось считать акустический сигнал и сопоставить его со словом, которое он представляет.

Произнесённым считается слово, которое лучше всего согласовано с этой последовательностью чисел. Для этого звук представляется как последовательность чисел, которая сравнивается с каждым словом в словаре, используя некоторый критерий. Критерии — многочлены, которые состояли из 50 млн переменных, или параметров.

В 1990-е годы вычислять многочлены с 50 млн параметров за линейное время (временная сложность алгоритма, которая зависит от числа операций — vc.ru) позволяли методы динамического программирования.

Для них долгое время не могли найти способ вычисления значений для 50 млн параметров в линейное время. Более совершенные критерии были основаны не на многочленах, а на рациональных функциях — отношениях многочленов. И когда его стали применять, точность распознавания речи значительно улучшилась. А я нашёл этот метод.

Дмитрий Каневский на мероприятии AI in Action

В то время появился интернет и с его помощью я создал первые в мире сервисы, которые помогали понимать речь. Вместе с этим я постоянно работал над технологиями, которые помогали бы людям с нарушениями слуха.

Для этого клиент звонил людям, умеющим быстро печатать, включал громкую связь, и они набирали текст, который слышали во время звонка. Например, сервис, который позволял переводить устную речь в письменную.

Такая услуга стоила до $120–150 в час. Текст в реальном времени высвечивался на экране компьютера клиента, и тот понимал, о чём говорят рядом с ним.

Также я занимался изобретательством, не связанным с распознаванием речи.

Она помогала водителям не уснуть за рулём. Одна из таких технологий — Artificial Passenger (искусственный пассажир — vc.ru). Система наблюдала за человеком, разговаривала с ним, поэтому водитель, отвечая на вопросы, не засыпал.

Чтобы подтвердить личность клиента, консультанты обычно просили назвать его имя матери или жены. Другая разработка касалась безопасности в банках.

Например: «Как зовут вашу собаку?» или «Когда вы вернулись из отпуска?» Я разработал систему, которая позволяла банку собирать больше информации о клиенте, чтобы сотрудники каждый раз могли задать новый вопрос.

Если всё было в порядке и человек давал правильный ответ на вопрос, сотрудник банка понимал, что звонит не мошенник. В это же время технология идентифицировала голос звонящего и проверяла, действительно ли он принадлежит клиенту банка.

Распознавание речи для YouTube

В 2014 году я перешёл в Google, где продолжил работать над распознаванием речи.

В то время технология работала плохо, и мы с командой должны были улучшить её алгоритм. Я занялся системой Closed Caption для YouTube, которая автоматически распознаёт речь на видео и переводит её в субтитры.

Причём нужно, чтобы слова произносились разными голосами. Для создания акустических моделей слов (математических функций, основанных на фонемах — элементарных единицах речи — vc.ru) нам были нужны данные: тексты и их озвученные версии, чтобы обучить машину.

Так набирались несколько тысяч часов примеров речи, что мало для хорошей системы распознавания. Ранее для этого нанимались люди, которые слушали и расшифровывали аудио в текст.

Многие пользователи загружают на сайт видеоролики, в которые уже сами вшили субтитры с расшифровкой. YouTube интересен тем, что там огромное количество видео, где звук и текст уже имеются. Отчасти это делалось потому, что ролики с субтитрами поиск выдавал выше.

Проблема была лишь в том, что люди часто делают не только ошибки в тексте, но и просто ставят в субтитры случайный набор букв, чтобы получить высокий ранг при поиске. У меня появилась идея использовать для обучения алгоритмов сотни тысяч часов готовых данных от пользователей. Нам пришлось поставить фильтры, которые отличали качественные данные от плохих.

То, что видят пользователи сейчас, нажимая на автоматическое создание субтитров, — результат этой работы. В итоге мы закончили разработку в 2016 году, и Closed Caption стала намного лучше распознавать речь.

Проекты для людей с ограниченными возможностями

В 2017 году я перебрался из офиса Нью-Йорка в калифорнийское отделение Google.

С помощью него люди с проблемами слуха могут узнать, что им говорят. Уже тут за полгода вместе с командой я создал приложение Live Transcribe, которое использует ту же технологию перевода речи в текст, что и YouTube, но в виде отдельного приложения.

Эта часть аудиоинформации обрабатывается на самом телефоне, а расшифровка прямой речи работает через интернет. Система распознаёт и дополнительные звуки, о которых также пишет пользователю: лай собаки, плач ребёнка, звук гитары, стук в дверь, смех и так далее.

Часто сотрудники Google разрабатывают проекты для решения проблем их коллег. Один из главных создателей этого приложения — Чет Гнеги. Гнеги видел, как я использую сервисы, где люди печатают для меня речь, которую слышат, и решил помочь.

Оно помогало нам работать вместе и в итоге выросло в отдельный проект Google под названием Live Transcribe. Он создал первый прототип приложения.

Это приложение для людей с нестандартной речью: тех, у кого есть БАС (заболевание, при котором поражается центральная нервная система — vc.ru), глухих, заикающихся, людей переживших инсульт. Ещё один проект, в котором я участвую, — Euphonia.

Только в этот раз их не найти даже на YouTube. Для этого проекта нам вновь нужно множество примеров нестандартной речи. Такая речь очень индивидуальна, и здесь нужен другой подход для сбора данных.

Я заранее писал доклады, с которыми планировал выступать, а потом записывал их в аудио. Я сам надиктовал первые 25 часов записи. Я мог выступать, а зрители видели текстовую расшифровку моих докладов. Так я тренировал систему.

Сейчас мне уже не нужно писать доклады заранее — алгоритм переводит в текст абсолютно всё, что я говорю. С каждым новым выступлением система всё лучше меня понимала и распознавала даже новые фразы.

Так стало понятно, что этот подход работает, и мы начали приглашать людей с особенной речью тоже читать и записывать текст.

Им нужно повторить 100 фраз, чтобы натренировать систему под себя. В случае с людьми с БАС мы начали работу с того, что дали им типичные фразы, которые они говорят, чтобы взаимодействовать, например, с Google Home. Таким людям трудно разговаривать, и они быстро устают, поэтому мы не можем ждать от них большого количества записей.

Это медленный процесс — данных слишком мало, и Euphonia — всё ещё проект-исследование, а не готовый продукт. Тем не менее постепенно мы начали объединять примеры речи разных людей с этим заболеванием, чтобы в будущем создать универсальную систему.

У смартфонов небольшие вычислительные мощности, на которых сложно заниматься расшифровкой аудио. Euphonia не требует соединения с интернетом, как в случае с Live Transcribe. Однако команде удалось справиться с этим.

Если пользователь приходит к врачу, то и он, и врач переживают, что их диалог попадёт на удалённые серверы. Многие люди боятся, что их данные обрабатываются через интернет. Тут этого нет, потому что для Euphonia не нужно подключение к сети.

В некоторых случаях Google старается делать для них бесплатно индивидуальный распознаватель речи. Сейчас мы даём ссылку, где люди с особенностями речи могут зарегистрироваться и оставить примеры своей речи.

Здесь мы работаем с визуальной информацией. Также я работаю над проектом по распознаванию языка жестов. Сейчас разработка находится на начальном этапе. Эта задача ещё труднее, чем распознавание речи.

И нам вновь нужно найти огромное количество примеров. В языке жестов один жест может означать не отдельную букву, а целую фразу. В США это единственное высшее учебное заведение для слабослышащих и глухих. По этому проекту мы сотрудничаем с Галлодетским университетом.

Мои коллеги работают над его новой версией, более современной, с помощью которой получится передавать больше информации. Кроме этого я вернулся к идее своего прибора, который переводил высокие частоты в низкие.

Прототип прибора перевода высоких частот в низкие

Примерно один месяц в году сотрудники могут работать над этим проектом. Каждый год в Google проводится конкурс, где можно предложить идею, как помочь людям с ограниченными возможностями.

Например, четыре года назад выиграл проект, который помогал людям с трясущимися руками держать ложку, чтобы есть. Потом они показывают идею, и Google отбирает лучшие.

Дмитрий Каневский

Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть