Хабрахабр

Гайд по голосовому UX: ситуации, паттерны, инструменты (и немного моральной поддержки)

UX и UI-дизайнеры всё ещё со скепсисом смотрят в сторону голосовых интерфейсов. Одним кажется, что это маркетинговый хайп, который скоро сойдёт на нет. Другие не пользуются голосовыми ассистентами и поэтому уверены, что голос — это неудобно и неестественно. Но пока они сомневались, сложилась самостоятельная профессиональная сфера — со своими секретами, паттернами и механиками (и даже рынком труда). Вместе с UX-архитектором Just AI Екатериной Юлиной разбираемся, как подступиться к голосовым технологиям и что в своем мышлении должен изменить UX-дизайнер традиционных интерфейсов, берясь за голосовые.

На дворе 1995 год. Но для начала немного ретроспективы. Помню, как родители и прочие взрослые говорили о пользе и вреде компьютера. Microsoft выпускает ОС Windows 95, и в мире происходит революция. А по выходным мы всей семьей ходили в гости к друзьям, чтобы поиграть в «Косынку» и «Сапера».

Мир снова изменился, на этот раз благодаря телефонам с кнопочным интерфейсом. В 2000-м вышла Nokia 3310. У меня тоже был такой. Позже появились смартфоны со стилусами. Сразу как-то выделяешься на фоне людей с кнопочными телефонами. Тыкать стилусом в экран было очень круто. В 2007 году Apple начинает продавать iPhone — и с тех пор люди тапают и свайпят, а тыкать стилусом уже давным-давно стрёмно. Но «лучший стилус — это ваш собственный палец», говорил Стив Джобс.

И скоро только ленивый (и недальновидный!) не будет делать навыки для голосовых помощников. А затем понеслось: 2011 год — Apple презентует Siri, в 2014-м Amazon выпускает Alexa и Amazon Echo, в 2016-м выходит Google Assistant, в 2017-м — «Алиса» от «Яндекса»… Перед разработчиками и бизнесом открылись двери в экосистемы ассистентов, как когда-то — в магазины мобильных приложений.

Ситуации, когда голос — это действительно удобно

Невозможно представить, чтобы user experience (UX, пользовательский опыт) строился в вакууме. Голосовой навык рождается в конкретной ситуации, где он полезен и органичен, — бессмысленно создавать голосовой сценарий, а затем думать, где бы его применить. Важно эту ситуацию обнаружить и мастерски её обыграть.

Почему? Голос удобнее, чем веб- или мобильные приложения тогда, когда нам нужна конкретная функция для решения конкретной задачи. Сайты и приложения многофункциональны. Потому что не нужно дожидаться загрузки сайта, скроллить страницы, искать по меню, нажимать кнопки. Голосовой навык должен быть заточен под единичный кейс, под «здесь и сейчас».

В перерывах между играми «Лос-Анджелес Лейкерс» и «Бостон Селтикс» комментатор Эрни Джонсон объявляет, что началась продажа лимитированных кроссовок Nike и что зрители могут попросить Google Assistant забронировать для них пару за $350. В феврале 2019 года американский канал TNT транслировал матчи NBA.

Через шесть минут кроссовки исчезли. Более 15 тысяч человек забронировали их с помощью голосового ассистента (число заказов превысило количество доступного товара). Идеальной ситуацией для продажи баскетбольной обуви оказалась настоящая игра.

Можно сказать «Alexa, order my Starbucks» («Алекса, закажи мой «Старбакс»») и забрать любимый напиток в ближайшем заведении уже через несколько минут. Ещё в 2017 году Starbucks придумала, как с помощью голосового ассистента сократить время ожидания заказа и путь клиента к желанной чашке кофе. Не нужно заходить в приложение, искать свой обычный заказ, подтверждать выбор. Не нужно стоять в очереди и ждать, когда бариста выкрикнет ваше имя. Затем этот же кейс обыграла Ford: Alexa встроили в мультимедийную систему SYNC3, так что у водителей появилась возможность заказывать и оплачивать голосом свой Starbucks прямо в салоне автомобиля, не отвлекаясь от дороги.

А вот коллеги из компании Alan AI рассказали мне, как обнаружили прикладной юзкейс — уже не для маркетинговых, а для enterprise-задач. Техническому персоналу, обслуживающему лифты в США, приходится читать тонны документации, заполнять ряд бланков, вносить данные о ремонте, отчитываться о выполнении задач — и делать всё это в разных системах учёта. На писанину уходит много времени, в которое лифтёр фактически не работает. Alan AI применили технологии голосового искусственного интеллекта, чтобы пользователи-лифтёры могли заполнять бланки голосом в ходе работы или во время поездки на объект.

Задача дизайнера — детально изучить контекст и понять, что пользователь захочет в конкретной ситуации. Голосовой UX — это не про картинки, а про контекст ситуации.

UX-паттерны в голосе

Одна функция. Итак, один навык — одна функция. Если водитель заказывает кофе, то он решает эту конкретную задачу. Закончил с кофе и хочет узнать расстояние до Луны? За это отвечает уже другой голосовой навык. Делать швейцарский нож в одном навыке — дурная затея.

Нет ничего хуже, чем ждать подгрузку контента, бесконечно прокручивая страницу. Скролл. UX- и UI-дизайнеры постоянно спорят с маркетологами о том, сколько информации показывать на первом экране. Он не нужен, ведь голосовой ассистент — это набор навыков. В диалоговых интерфейсах тоже есть первый экран и, в отличие от веба, отсутствует скролл. Пользователь по команде активирует навык и запускает одну-единственную функцию.

В чём суть модальных окон? Модальные окна и кнопки. Второе название модальных окон — диалог. В реальной жизни люди выражают намерения, говоря да или нет, и для этого не нужны кнопки. Подтвердить или отказаться от намерения выполнить операцию.

То, что пользователю удобно делать дома через «умную» колонку, будет отличаться от использования голосового помощника в автомобиле. Мультимодальность. «Умные» колонки и экраны, смартфоны, говорящие игрушки для детей, «умные» дома, приборная панель в автомобиле — устройства определяют контекст использования. Один и тот же ассистент на разных платформах обладает различным набором умений.

Проверьте, можно ли комбинировать голос с другим видом взаимодействия на этом устройстве. Определите контекст использования и устройство.

Кроссплатформенность. Другой аспект — как сделать один навык под несколько ассистентов. Механика и логика могут сохраняться, но дьявол будет скрываться в деталях реализации и пути пользователя до навыка. Посмотрим, как на одной и той же платформе выглядит путь к навыкам «Алисы» и действиям Google Assistant.

Пользователям «Алисы» нужно сначала скачать приложение «Яндекс.Браузер», разрешить ему использовать локацию и микрофон, нажать значок ассистента и сказать активационную фразу навыка. «Алиса» на iOS. Второй и последующий опыт пользователя состоит уже из трёх шагов: открыть «Яндекс.Браузер», нажать на кнопку вызова ассистента, сказать активационную фразу. Например, «Запусти навык «Да, милорд»».

Пользователь скачивает приложение Google Assistant, авторизуется через аккаунт, разрешает отправку уведомлений и соглашается на доступ к микрофону. Google Assistant на iOS. Здесь она другая — «Говорить с приложением «Да, милорд»». Если в телефоне по умолчанию выбран английский язык, то в интерфейсе приложения надо выбрать русский, попросить ассистента голосом поменять язык и сказать активационную фразу для вызова действия. Затем путь сокращается — во второй раз пользователь откроет приложение Google Assistant и просто озвучит команду.

Но над задачей удобного skills discovery (как правильно донести до потребителей информацию о новых навыках) сейчас работают и Google, и «Яндекс», и другие компании, так что со временем находить полезные и актуальные в определённый момент навыки будет проще. Не зная активационную фразу (а команды вызова одного и того же навыка в разных экосистемах будут отличаться), навык не запустишь — и в плане UX это одно из слабых мест голосовых ассистентов.

И, кстати, VUI-дизайнеры настаивают, что навык с одной и той же механикой для разных ассистентов — всё же отдельные проекты.

Проектирование интерфейса в семь этапов

Я спрашивала VUI-дизайнеров, коллег из Just AI и пользователей конструктора навыков Aimylogic, с чего они вообще начинают работу над сценарием. Все говорят «с идеи». Описать её можно в свободной форме в текстовом редакторе.

Это текстовый файл, описывающий работу какого-либо флоу. Павел Гвай, основатель tortu.io — инструмента для проектирования голосовых приложений: «Самый быстрый и дешёвый способ понять, как будет строиться разговор между пользователем и вашим приложением, — написать пример диалога. По формату примеры диалогов напоминают сценарий к фильму, где все реплики расписаны по ролям».


Пример диалога в Notion

Поприветствуйте пользователя

Используйте ёмкие фразы средней длины. Расскажите, что делает бот. Я Активити. Заканчивайте фразу закрытым вопросом: так пользователь поймёт, что от него хотят.
Плохо — «Привет! Он моё всё, моя жизнь, моё вдохновение! Не могу прожить ни дня без спорта. С радостью поделюсь своими любимыми упражнениями с тобой!»
Хорошо — «Привет! А ещё у меня большой опыт в качестве тренера и сотни упражнений в базе! С радостью порекомендую тебе комплекс упражнений. Я Активити, бот-спортсмен. Хочешь, расскажу про йогу?»

Проработайте пути пользователя

Аналогия с классическими интерфейсами — формализованный или неформализованный запрос. На языке программистов намерение — интент (английское intent). С формализованным работать проще, а неформализованный может превратить жизнь в кошмар.

Её задача — помочь описать логику приложения. Дизайнеры используют блок-схему при работе с путями пользователя. Блок-схема состоит из шагов диалога от лица пользователя и системы, иногда на неё добавляют логические элементы — вызовы API, работу с контекстом.


Блок-схема в Miro

Некоторые дизайнеры покрывают блок-схемой каждую деталь навыка. Часто блок-схема описывает основные развилки в голосовом навыке. Павел Гвай делать этого не рекомендует, потому что она очень быстро перестанет быть читабельной, а внесение любых правок будет занимать уйму времени.

Самый простой способ проработать путь пользователя — пройти вместе с ним от начала до конца и посмотреть, в каких точках появятся условия и отклонения от основного сценария.

Создайте навигацию

Не заставляйте его запоминать команды. На каком бы шаге пользователь ни находился, у него всегда должна быть возможность начать сначала, вернуться назад, продвинуться вперёд и отвечать вариативно.

Уже упомянутый мною навык «Да, милорд» (его аудитория в «Алисе» – 650 тысяч человек, к тому же он вошёл в число самых популярных игр для Google Assistant не только в России, но и в мире) — это атмосферная игра с музыкой, достойным синтезом речи, интересными сюжетами, игровой механикой. Пример из жизни. По сюжету игрок — милорд, владелец земель и крестьян, попадает в ситуацию «Ваша светлость! На старте пользовать мог управлять игрой только с помощью «Да», «Нет» и «Хватит». Изволите начать строить шахту?». В наших благодатных краях найдены большие залежи меди! Можно было бы и просто ответить да, но хочется же вжиться в роль и говорить, как подобает великосветской особе.

В наших благодатных краях найдены большие залежи меди! — Ваша светлость! Изволите начать строить шахту?
— Изволю!

VUI-дизайнер обнаружил этот момент и обучил навык лучше понимать пользователей, предоставив им больше свободы при ответе.

Выпишите примеры диалогов и делайте ответы бота более разнообразными

Им так сподручнее, но это далеко не самый удобный вариант — описывать и логику, и возможные переходы. Мои коллеги по Just AI пишут примеры диалогов в таблицах. Какого-то единого формата и регламента описания нет. Кто-то пишет сценарии в Word.

Гипотезу подтверждает Нелли Камаева, дизайнер Alan AI. Пользователей сильно раздражает, когда ассистент начинает повторяться. Во время тестирования навыка для детей она видела, как быстро ребята теряли интерес, столкнувшись с одним и тем же ответом.

VUI-дизайнеры рекомендует использовать от трёх до десяти вариантов одной фразы. Стоит предусмотреть несколько синонимичных по смыслу реплик, которые будет слышать пользователь, попадая на один и тот же шаг сценария.

Загляните в «помойку» для нераспознанных намерений

«Помойка», или catch-all на языке программистов, — это место, куда по разным причинам попадают фразы пользователей.
— Я с кем вообще говорю? Ты робот?!
— Вы меня раскусили. Хотите продолжить общение?
Фраза «Я с кем вообще говорю? Ты робот?!» попадёт в catch-all (если вы её не предусмотрели сценарием). «Вы меня раскусили. Хотите продолжить общение?» — реплика по умолчанию при подобных ситуациях. Подумайте заранее, чем помочь пользователю, провалившемуся в catch-all.

Подумайте над голосом и характером

С ними неинтересно, разговор продолжать неохота, мы их называем нудными. Вспомните собеседников, которые наводили на вас скуку. «Алиса», Alexa и Google Assistant имеют свои Speech Toolkit с широким набором мужских и женских голосов, акцентов и звуковых эффектов для оживления речи бота вроде покашливания и пошмыгивания. То же самое происходит и при общении с навыками.

Это кропотливая работа, но, поверьте, результат того стоит. Если вы хотите впечатлить пользователя и вовлечь его в разговор, повозитесь со стилистикой речи, поработайте над синтезом: расставьте ударения, паузы и интонации. На внутреннем воркшопе коллега создала навык для Alexa — послушайте фрагмент:

Awful weather, yeah? — Hey, man. Let your old friend Joe mix you a good Irish drink. Wanna to get drunk? There you will never drink alone. Ok?
— And now when you feel better, take your effing ass and go to the Joe's pub. I'm waiting for you.

Ещё один способ работать с голосом — записать аудио с профессиональными актёрами. Долго, дорого, теряется гибкость, если вы захотите что-то добавить в сценарий, зато эффектно. Навык может говорить голосами знаменитостей, политиков и героев из фильмов (ну, нашу озвучку игры «Мир Лавкрафта» вы уже могли слышать, а вот как Google Assistant говорит голосом лауреата Грэмми Джона Ледженда — тык).

Только 0,5% клиентов смогли заподозрить (даже не догадаться, а заподозрить), что с ними разговаривает бот. Для одного из бизнес-кейсов мы тоже использовали записи голосов профессиональных актёров.

В той же игре «Да, милорд» для «Алисы» звуки используются для создания атмосферы: ржание коня, ропот толпы, зловещий смех, волынка. Для создания атмосферы используйте звуки и иллюстрации

Подобрать звуки можно из готовых библиотек или создать свои (Alexa привередлива к расширению файлов, поэтому придётся повозиться с конвертацией). А недавно в «Алисе» появился навык «Птицы России», где в беседе можно услышать, как поют и щебечут жаворонок, воробей или другие птицы.

У дизайнера есть всё для создания навыков, вовлекающих пользователя в процесс. Дизайн голосового интерфейса не ограничивается блок-схемами и сухим текстом.

И ещё советы от VUI-дизайнеров

Не учите интерфейсу. Язык — привычный и понятный интерфейс. Не надо учить человека говорить. Он это умеет.
Плохо — «Чтобы прослушать сообщение заново, скажите «Прослушать заново». Чтобы перейти к следующему сообщению, скажите «Перейти к следующему сообщению»».
Хорошо — «Послушаем сообщение ещё раз или перейдём к следующему?»

Рекомендую избегать открытых вопросов и открытого конца высказываний бота, пользователя нужно направить к действию.
Плохо — «Привет! Задавайте закрытые вопросы. С радостью порекомендую тебе альбом и расскажу про него».
Хорошо — «Привет! Я Симфони, бот-меломан. С радостью порекомендую тебе альбом и расскажу про него. Я Симфони, бот-меломан. Хочешь узнать про трек дня?»

Никто из нас не хочет читать сложный и перегруженный текст, а уж слушать его тем более невыносимо.
Плохо — «Немаловажно иметь в виду, что дальнейшие альбомы этого исполнителя станут платиновыми, что позволяет сделать вывод о успешности данного дебютного альбома как средства эффектного выхода на международную арену».
Хорошо — «Дебютный альбом привлёк к исполнителю внимание всего мира. Избегайте канцеляризмов. Очевидная рекомендация, которой мало кто следует. Недаром его следующие пластинки дважды стали платиновыми!»

Тестирование и обучение

Тестируйте навык в тишине, на улице, в шумном помещении, говорите с разной интонацией и с разной скоростью. Даже в самом тихом месте что-то может пойти не так. Возможно, кому-то процесс тестирования покажется занудным, но, уверяю вас, это не так. Навыку нужен настоящий краш-тест!

На одном из воркшопов я проектировала фитнес-навык: по задумке Alexa сначала делала инструктаж, потом включалась музыка и человек повторял упражнение. Из личного опыта. Я с азартом тестировала всё на себе: прыгала и бегала под нарезанную музыку, меняла длину треков, повторяла упражнения множество раз и в конечном счёте UX навыка меня удовлетворил.

Они проверят реакции навыка не по теме: навык для заказа пиццы, а пользователь — вроде очень хитёр — спросит про суши. Провоцируйте и материтесь

Пользователи — провокаторы. И ещё поматеритесь от души. Придумайте достойный ответ. В Just AI есть чек-лист мата, который используют при тестировании. Я серьёзно!

Послушайте своими ушами всё, что будет слышать пользователь. Проговаривайте и переслушивайте

Проговаривайте всё, что вы придумали. Записывайте речь, возвращайтесь к записям, экспериментируйте. Попросите коллег зачитать и даже разыграть сценарий.

Примите это и смиритесь. Обучайте навык

Но с первого раза всё в навыке вы не предусмотрите. Читайте диалоги и анализируйте логи. Вашему навыку потребуется дообучение. Как это делать с помощью Python, в одном из выпусков «Школы Алисы» рассказывает Дарья Сердюк, NLP Research Engineer Just AI.

Инструменты дизайнера

Бумага, карандаш или маркерная доска — лучше них ещё ничего не придумано для старта работы или быстрого донесения идеи команде или заказчику. Но есть и более продвинутые инструменты, которые упростят профессиональную жизнь дизайнеру голосовых интерфейсов и помогут реализовать идею.

Более 10 тысяч пользователей и более 1100 навыков для голосовых ассистентов с общей аудиторией в 1 млн пользователей. Aimylogic
Конструктор с NLU-движком (natural language understanding, понимание естественного языка). Есть бесплатная подписка и бесплатный демопериод на платных подписках.

Есть техническая поддержка и сообщество в Telegram. В конструкторе можно создать сценарий, протестировать его и подключить более чем к десяти каналам («Алиса», Google Assistant, Telegram, «ВКонтакте» и другие). Вот примеры нескольких голосовых навыков:

Tortu.io
Инструмент для быстрого прототипирования. Вы буквально строите диалог между пользователем и системой по шагам на блок-схеме, а затем тестируете с помощью прототипа. Подходит для WoZ-тестирования и быстрой проверки гипотез.

Позволяет создавать Alexa Skills без навыков программирования. Voiceflow
Графический конструктор Alexa Skills. Подходит для UX-тестирования.

Позволяет создавать ботов без навыков программирования. Flow.ai
Графический инструмент для создания чатботов. Также подходит для UX-тестирования.

Материалы для прокачки

  • Исследование Voice Tech об инструментах для голоса.
  • Сайт-каталог инструментов для голоса.
  • Github-репозиторий с инструментами для голоса.
  • Telegram-чат, посвящённый разговорным интерфейсам. В канале не привязываются к конкретной платформе или инструменту, обсуждают всё от бизнес-составляющих и трендов до разработки и проектирования.
  • Tools for Voice.

Психология и реальный опыт пользователей голосовых ассистентов значительно отличаются от того, к чему мы привыкли к вебе или мобильной среде. Но тем-то голосовой дизайн и интересен — это новая и пока мало исследованная область, в которой можно совершить много открытий и прорывов.

Опыт и материалы VUI-дизайнеров, упомянутые в статье, использованы с их согласия.

Благодарности:

Дмитрию Чечеткину, сооснователю и главе стратегических проектов, Just AI.
Дарье Сердюк, NLP Research Engineer, Just AI.
Павлу Гваю, основателю Tortu.io.
Нелли Камаевой, Product Designer, Alan AI.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть