Хабрахабр

Как краудсорсинговая платформа Яндекса помогает обучать Алису и экономить деньги

Продолжаем рассказывать о том, как в Яндексе и других крупных компаниях используют краудсорсинг. В предыдущем посте мы говорили о беспилотниках и качестве поиска товаров.

Все подзаголовки кликабельны и ведут на записи докладов. Сегодня вы узнаете о применении Толоки для обучения Алисы, пополнения Справочника, контроля водителей и модерации комментариев. Поехали!

image

Яндекс.Автобусы – это сервис, предоставляющий услуги как для пассажиров, так и для перевозчиков. Иногда встречаются недобросовестные водители, которые подбирают пассажиров на остановках, не выписывают им билеты, а полученные деньги забирают себе. В результате перевозчик теряет выручку, что весьма ощутимо на длительных маршрутах.

Звонить пассажирам и спрашивать, сколько человек было в автобусе, не подсаживал ли водитель кого-то по пути, неэффективно. Организовать работу контролеров на всем пути следования, например, из Уфы в Москву, достаточно дорого. Но на длинной дистанции, где много остановок, люди постоянно входят и выходят, что дает ощутимую погрешность. Еще один способ – установить счетчик людей на входе в автобус. Кроме того, водитель по-прежнему легко может обмануть перевозчика, прикрыв датчик. Каждый «потерянный» человек – это потенциальный убыток в 2,5–10% от выручки рейса.

Так для каждого рейса накапливаются фотографии, где видно, в какой момент сколько пассажиров находится в салоне. Команда Яндекс.Автобусов пришла к решению прикрепить широкоугольную IP-камеру к роутеру в автобусе, периодически делать фото салона и отсылать в диспетчерскую. Осталось научиться обрабатывать фото, то есть считать количество пассажиров. Кстати, все лица пассажиров предварительно алгоритмически «размываются». Кроме того, камера в автобусе одна, на фото не всегда попадают лица. На этом этапе возникла проблема: картинка не всегда получается качественной, так как съемка происходит в движении, часто в темноте. Готовых моделей, способных посчитать количество людей на таких изображениях, найти не удалось, писать свою было бы слишком долго.

Фото салона отправляются в Толоку с заданием посчитать количество людей на них. Разработчики обратились к толокерам. Чтобы посчитать один рейс, требуется 7 рублей. Стоимость решения – менее 150 долларов.

Оказалось, что 9% выручки шло в обход перевозчика. Эксперимент провели на четырех автобусах по 300 рейсам. Сейчас все больше перевозчиков Яндекс.Автобусов подключаются к этой системе.

Яндекс.Справочник – это огромная база организаций с контактами, фотографиями, отзывами и другими данными. Чтобы поддерживать ее в актуальном состоянии, приходится собирать и обрабатывать большие объемы информации.

Среди них есть десктопные, которые решаются дома, и полевые, требующие выполнения на улице. С этими задачами хорошо справляется Толока – в среднем в месяц 50 тысяч исполнителей решают 15 миллионов заданий Справочника.

В десктопной Толоке выполняются десятки типов разметок для Справочника, таких как модерация фотографий пользователей или расшифровка меню кафе и ресторанов, чтобы выполнять поиск заведений по блюду.

Для актуализации данных о таких организациях толокеры выходят на улицы и выполняют задания с использованием смартфона. Не у всех организаций есть телефоны и сайты, чтобы уточнить информацию удаленно. На карте показаны выполненные полевые задания за последние несколько месяцев, более миллиона точек.

С Алисой каждый день разговаривает несколько миллионов людей. Каждый решает свои задачи: узнает погоду, получает информацию или просто болтает. Чтобы Алиса могла понять и помочь каждому, ей нужно учиться распознавать речь, а для этого требуется много данных.

Например, одна из задач – прослушать аудиозапись и расшифровать ее. В сборе этих данных помогает Толока. Примерно за час работы толокеров можно получить 5 часов размеченных аудиозаписей.

Если давать одно задание нескольким исполнителям, появляется возможность выбрать лучший вариант. Если попросить человека распознать аудиозапись, его ошибка составит 5-6% неправильно распознанных слов. Ошибку в итоговых данных удается сократить до 1-2%.

Нужно еще правильно ответить. Понять, что сказал пользователь, недостаточно. Она должна отвечать уместно, не обращаться к пользователю на «ты», не хамить и не говорить о себе в мужском роде. У ответов Алисы есть несколько аспектов качества. Толокеры определяют, обладает ли ответ теми или иными указанными свойствами. Все эти метрики представляются в виде заданий на Толоке.

Так, синтез речи должен быть естественным, с правильной интонацией, без технических дефектов. Но не всегда аспекты качества можно формализовать. Поэтому в Толоке исполнителю предлагается прослушать два варианта одной фразы и выбрать лучший. Это субъективные параметры, которые сложно представить в виде оценочной модели.

Rambler Group развивает более 20 проектов, в том числе новостные ленты и тематические сайты, на каждом из них пользователи оставляют комментарии. Это увеличивает время, проведенное на сайте, и глубину просмотров, что выгодно для ресурса.

Чтобы их проверять, нужен штат модераторов. Но есть и другая сторона медали: издание несет ответственность за содержимое комментариев. Так как комментарии появляются постоянно, модераторы должны работать круглосуточно, что дорого и достаточно сложно.

Сначала запустили эксперимент: выбрали 24717 комментариев, обработанных штатными модераторами, и воссоздали реальный поток поступления этих комментариев в Толоку. В поисках решения Rambler Group обратилась к Толоке. Для контроля качества модерации одно задание предлагали троим исполнителям. Одно задание включало 10 комментариев, на их обработку отводилось 3 минуты. Стоимость установили минимальную – 1 цент.

Результаты:

Как оказалось, толокеры за минуту обрабатывают 10 комментариев, а штатные модераторы – 12. На ресурсах Rambler Group действует система постмодерации: любой комментарий сразу попадает на сайт, нужно максимально оперативно удалить некорректные. Кроме того, эксперимент показал, что пользоваться услугами толокеров на 60% выгоднее, чем содержать штат модераторов для каждого издания.

Одно задание теперь предлагают двум исполнителям, если их мнение расходится, подключают третьего. Эксперимент посчитали успешным, но немного поменяли условия. Это позволило сократить затраты еще на 35%. Количество комментариев в задании увеличили с 10 до 15.

Теперь комментарии на всех проектах Rambler Group модерируются через Толоку. С помощью API комментарии автоматически отправляются в Толоку, проходят модерацию и возвращаются с вердиктом.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть