Главная » Хабрахабр » Интервью с «главным по мозгам Алисы»

Интервью с «главным по мозгам Алисы»

RUVDS совместно с Хабром начинают проект, состоящий из серии интервью с интересными, на наш взгляд, людьми в IT-среде. Сегодня мы представляем интервью с руководителем группы разработки диалоговых систем в Яндексе, Борисом Янгелем.

Ответы в видео и тексте под катом. Почему Алиса, а не Макс, в чем был не прав бывший министр связи Никифиров, зачем запускать Tesla в космос.

Интервью помогли подготовить Лера Негря и редактор Хабра Николай Землянский.

Привет. Я Лера Негря, и сегодня у нас в гостях руководитель группы разработки диалоговых систем в Яндексе – Борис Янгель. Начнем мы конечно же с твоей работы, чем ты сейчас занимаешься в Яндексе?

Мы интерпретируем то, что сказал пользователь на естественном языке и превращаем это в некоторое структурированное представление. — Сейчас в Яндексе мой основной проект это Алиса, голосовой помощник, который Яндекс запустил в октябре прошлого года, и моя группа отвечает за то, что можно условно назвать мозгами Алисы. Это первая наша задача, а вторая — это когда мы уже знаем что нужно ответить пользователю, превратить это в ответ тоже на естественном языке.

Все это время вы занимались разработкой. — Ты в этой должности работаешь уже на протяжении двух лет. Не поздним ли был выпуск голосового помощника на фоне того, что конкуренты выпустили его раньше?

Если мы посмотрим на конкурентов, кто реальный конкурент? — Нет конечно, совсем не поздно. Дальше, допустим, Google бы уже запустил свой Google-ассистент на русском, стоило бы в это ввязываться? Есть Siri, единственный голосовой помощник, который тоже понимает русский язык, но он работает только на iOS и MacOS, это как бы не самая популярная платформа в России, и к Siri как к продукту тоже есть определенные вопросы. Ну и, наверное, последний поинт тут важный: то, что мы сейчас видим, это заря эры диалоговых систем, и на самом деле ни Google, ни Apple, ни, наверное, мы еще пока не знаем как нормально их делать. Ну может быть все равно стоило, потому что можно попробовать с Гуглом побороться на своей территории за аудиторию, тем более что с поиском это у нас более-менее получается. Поэтому конечно в нее сейчас все еще стоит заходить. Если сравнивать с поисковыми системами, с тем что происходило в начале 2000-ых годов, это условно эпоха Альтависты, когда вроде какие-то продукты есть, но работают они пока на каких-то непонятных принципах и работают так себе, и в любой момент может прийти условный Google и изменить индустрию полностью. Может прийти новый игрок и все перевернуть, и мы на самом деле тут в чуть более выигрышном положении, потому что мы начали позже, а значит у нас меньше legacy-стека, то есть мы можем сразу работать с новыми технологиями. Очень много технологических вызовов и проблем, которые еще не решены. А у Siri, например, которую сделали бог знает когда, очень много старого кода который уже сложно модифицировать, и они из-за этого сталкиваются с кучей проблем.

Как это удалось и не ушел ли этот поезд сейчас? — В своем выступлении на академии Яндекса ты говорил о том, что вы поймали некий поезд хайпа.

У всех конкурентов есть какое-то количество сценариев, которое прописано жестко в этих продуктах: «мы можем отвечать на такой и на такой вопрос, разговаривать про погоду или еще про что-то, и если то, что говорит пользователь не попадает ни под один из этих сценариев, то мы отвечаем какой-то заглушкой типа «Извините, я вас не поняла»». — Наверное удалось это в первую очередь благодаря очень смелому решению, которое было принято в нашем продукте. Может быть не всегда на 100% уместно, но больше чем в половине случаев он точно может говорить какие-то вещи, которые нужно было сказать в этот момент. Мы решили поступить по-другому и сделали нейросетевой модуль, который в таких ситуациях может ответить что-нибудь, что может будет уместно в контексте предыдущего диалога, и по сути он может общаться с пользователем на любую тему. Смешные ответы Алисы, которые не мы туда заложили, а которые сгенерировала она сама, моментально расползлись по социальным сетям, это  и создало тот самый поезд хайпа. И наш модуль много такого наговорил, что понравилось пользователям. Он конечно понемногу уходит, это неизбежно, все эти шутки приедаются, но мы стараемся развивать продукт дальше и ловить хайпа понемножку там, где можем.

Как выбирался голос и вообще, почему она Алиса?Вы пытались сделать Алису максимально интересной именно российскому пользователю.

— Я честно говоря не участвовал в процессе выбора голоса и не знаю, по каким принципам он осуществлялся, кроме того, что это классный голос российской актрисы Татьяны Шитовой, которую все любят, достаточно узнаваемый.

Мы подумали и выписали ряд свойств которыми мы бы хотели чтобы обладал ассистент. Я могу рассказать про имя Алиса и про характеристики. И дальше мы задали на нашей краудсорсинговой платформе людям вопросы, например, вот это имя у вас ассоциируется с таким свойством или нет? Например, он должен не быть заносчивым, помогать человеку, быть дружелюбным, быть интеллектуальным, то есть какой-то набор положительных и отрицательных свойств. Это вероятно связано с тем, что у этого имени в русской культуре есть какие-то положительные аннотации, например Алиса в стране чудес, Алиса Селезнева, классические примеры. Посмотрели, какие имена, которые мы заранее из каких-то принципов выбрали, больше соотносятся с положительными свойствами чем с отрицательными, и по этому критерию имя Алиса просто уничтожило всех остальных конкурентов из шорт-листа. Поскольку это то имя которым будут обращаться к Алисе, нужно чтобы там не было каких-то звуков, которые некоторым людям будет сложно произнести. И также это касается фонетических свойств имени. Имя Алиса этим свойствам удовлетворяет. Например буквы «Р» там точно быть не должно, шипящих также не должно.

Почему Алиса, а не Макс, почему она не мужчина?

Эволюция нас так устроила, что женщина — это мать, что-то безопасное, родное, а мужчина это воин, который копьем просто придет и заколет тебя. — На самом деле, проводилось немало исследований, и женщина — это более безопасный выбор. Поэтому ассистент-женщина — это нормально и для женщин и для мужчин, а вот если ассистент мужчина, то таким продуктом уже меньше будут пользоваться.

А был ли подобный риск с Алисой или возможно даже случались подобные ситуации?Несколько лет назад произошла не совсем приятная история, когда чат-бот Майкрософт повел себя совсем не корректно.

Как раньше я уже говорил, у нас есть нейросетевой модуль который отвечает в любой ситуации, а не только в рамках какого-то сценария. — Конечно было, и мы про эту историю очень много думали, когда Алису запускали. В рамках каких-то ограничений которые мы задаем, у него есть свобода говорить, и он может в каких-то ситуациях говорить вещи, которые мы бы не хотели чтобы он говорил. И у него есть абсолютная свобода, на самом деле. Как запретить ей соглашаться, когда у нее спрашивают про что-нибудь опасное, это уже очень сложная исследовательская задача. У нас язык очень мощный и богатый, есть миллиард способов согласиться с чем-нибудь или не согласиться, мы их все никогда не исчислим.

Это как-то связано с тем, что она часто говорит: «Я не хочу говорить об этом»?

На самом деле, если разрешить Алисе говорить только да или нет, этого уже достаточно чтобы оскорбить кого угодно. — Она говорит «Я не хочу говорить об этом», когда мы понимаем, что вот сейчас слишком опасная ситуация для того чтобы нейросетевой модуль давал ответ. Если она скажет да, все, пиши пропало. У нее достаточно спросить: «Поддерживаешь ли ты Х» где Х – это фашизм, геноцид, что угодно.

После этого внезапно ли было принято решение работать в Microsoft Research в Кембридже?

— Ну не то чтобы внезапно, это было закономерно. — После окончания университета ты сразу приступил к работе в Яндексе, это был отдел, который занимается поиском картинок по текстовому запросу. Я поработал в Яндексе, мне захотелось развиваться дальше, заниматься какими-то более сложными вещами.

А в Яндексе не получалось?

Я, наверное, был не очень хорошо готов к работе руководителя, и она мне не очень нравилась, я любил да и сейчас люблю программировать, а работа оставляла очень мало возможностей для этого, если только не хочешь по 16 часов в день работать. — В Яндексе, с одной стороны, получалось, с другой стороны, я в Яндексе уже начал руководить группой, которая отвечала за качество поиска по картинкам. Мне это не очень нравилось, мне хотелось  развиваться именно как программисту, специалисту по анализу данных, и тут подвернулся отличный вариант, вакансия в Майкрософт, как бы очень релевантная моему бекграунду.

А чем ты там занимался?

Это про то, как в условиях неполной информации принимать абсолютно рациональные решения, такое, что можно было бы доказать, что более рациональное решение принять в этой ситуации было нельзя. — Есть такая область в машинном обучении, байесовский вывод называется. По сути это библиотека для машинного обучения, просто основана на немного специфических принципах, нетрадиционных. Я работал в команде, которая занималась созданием программной библиотеки, с помощью которой можно бы было пользоваться всей мощью этого математического аппарата чтобы принимать решения в каких-то ситуациях.

И работа там подготовила к руководящей должности?

Я при этом занимался не самыми важными для компании проектами и не в полной мере раскрывал свой функционал. — Нет, когда я вернулся из Кембриджа обратно в Яндекс, я, честно говоря, попросил никем не руководить, сказал, по возможности можно я буду писать код, мне очень нравится писать код. Сначала я занимался разработкой бэкенда для некоторых экспериментальных мобильных приложений, потом в группе нейросетей развивал методы текстовой классификации, и в какой-то момент руководство решило: почему бы тебе Боря не заняться чем-нибудь полезным, иди делай Алису.

Насколько ты был подготовлен? — Два года назад в прессе активно обсуждалось то, что фундаментальное ИТ-образование, по крайней мере, в нашей стране недостаточно развито. Это школа Яндекса, или ты достаточно уверенно чувствовал себя уже после университета? Что тебе помогло?

В детстве сидел за компьютером и программировал, в университете тоже. — Программировать я умею потому что я просто много программировал. Этих фундаментальных знаний оказалось достаточно, чтобы разобраться в остальных вещах, которые нужны уже непосредственно чтобы работать самому. Там все шли куда-нибудь на пьянку а я или тоже шел на пьянку, или сидел программировал и с первого курса практически понемногу работал в реальных компаниях, в индустрии набирался опыта. Я там, правда, всего один год проучился, потому что очень уж много времени требовалось, там столько заданий, такие сложные. Школа анализа данных, конечно помогла, это классная инициатива которая дает те знания, которых не хватает сейчас на выходе из вуза. Но в целом я бы порекомендовал всем туда идти. Я тогда уже в Яндексе работал просто у меня времени не осталось.

Так ли это? — По мнению бывшего министра связи Никифорова, в нашей стране уже слишком много программистов, слишком много специалистов в ИТ-области. Достаточно ли много действительно хороших специалистов?

У нас довольно сложная задача, и требуются специалисты с уровнем выше среднего. — Я не знаю, как господин Никифоров считает, но вот как человек, которому нужно нанимать непосредственно специалистов к себе в команду, я испытываю колоссальные проблемы с наймом. Я не знаю, кого он считает программистами, но высококлассных специалистов, особенно в области нейронных сетей, глубинного обучения, в стране очень мало. Таких специалистов, которые мне нужны, на рынке практически нет, все, которые есть, скорее всего, работают уже в Яндексе, ну еще в каком-то небольшом количестве других мест.

В чем ты видишь смысл своей работы, как в отдельной компании, так и в общем и целом в индустрии?

То есть она как бы войдет в фундамент, на котором все постепенно строится. — Наверное, если глобально смотреть на вещи, было бы здорово придумать что-нибудь классное, технологию или идею такую, что люди, которые в индустрию после меня придут, свои какие-то разработки будут на технологии этой строить. Но если прям руку на сердце положить, я не могу сказать, что мне очень нравится руководить людьми, это реально тяжелая работа, она отнимает много времени, сил моральных и не дает заниматься тем, чем я люблю заниматься — программировать. Не знаю, что это будет, но хотелось бы хотя бы небольшой какой-то такой свой след оставить, и это сделать проще, наверное, если развиваться как руководителю, потому что тогда появляется больше ресурсов, можно пробовать какие-то более глобальные и амбициозные идеи. Для индустрии в целом это более интересный вопрос. Поэтому я хотел бы развиваться в такую сторону, которая мне позволит оптимальный баланс найти между масштабом вещей, которые я могу делать и на которые я могу влиять, и возможностью непосредственно делать эти вещи своими руками. И когда они только появились, никто не знал как их нормально делать, не было никаких парадигм, архитектурных паттернов, фреймворков, все делали кто во что горазд, и интерфейсы получались кривыми, убогими, их делать было очень сложно, код читать невозможно, но люди думали про это, и постепенно вырисовались какие-то красивые концепции как делать эти интерфейсы, появились удобные инструменты, и сейчас сайт с каким-нибудь достаточно сложным  интерфейсом профессионал в этой области может сделать очень быстро. Мне кажется, с голосовыми интерфейсами сейчас происходит то же самое, что происходило с графическими интерфейсами, когда они только стали появляться, когда первые цветные мониторы появились, и мы перешли от консолей где нужно было вводить команды, на какие-то кнопочки на которые можно было нажимать. Какие должны быть инструменты, чтобы их можно было делать удобно и чтобы они получались хорошими. Мы думаем, как же то же самое провернуть с голосовыми интерфейсами. Даже если бы вдруг у нас не получился хороший продукт, может быть, мы бы принесли пользу всей индустрии целиком, придумав что-нибудь в этом направлении.

Что может прийти на смену Алисе?

Какой интерфейс еще удобнее мог бы быть чем голосовой… Наверное управление силой мысли, что-нибудь такое. — Не знаю что это будет.

Если Алиса умрет, тебе будет грустно?

— Я останусь без работы, да, мне будет грустно.

Крупные компании, крупные проекты, какие на твой взгляд первые кандидаты на вылет?

Не могу сказать, что кто-то кандидат на вылет, потому что он делает плохой продукт. — Ну я, наверное, не буду никаких названий называть, это было бы неправильно. Например, рынок такси, или какая-нибудь условная доставка еды — Food Fox, Deliveru Club. Где бы я ожидал провалов, так это там где для развития бизнеса нужны какие-нибудь субсидии. Туда чтобы зайти, нужно сейчас очень много субсидировать, демпинговать конкурентов, чтобы сделать очень выгодные цены, выдавить всех с рынка и потом уже повысить цены. С одной стороны, это ИТ-проекты, с другой стороны, они с реальным миром взаимодействуют. Никого выдавить они не успевают, а мастодонты типа яндекс такси на каких-то рынках убера раздавливают всех. Это приводит к тому, что туда очень многие приходят и сгорают просто потому, что у них кончаются деньги.

Вкладываешься, нет, вкладывался, какие, почему.Криптовалюты.

Не делайте как я. — Я не самый успешный криптоинвестор, я один из тех людей, которые решили немного вложиться в самый неподходящий момент, конечно же, и теперь сидят и надеются что все-таки биткоин отрастет обратно.

Тебя пытались переманить конкуренты?

— Да, обычно я отвечаю, что сейчас не ищу никакой другой работы.

Если бы не ИТ то, что тогда?

— Я не знаю, я увлекаюсь парашютным спортом, может тогда я бы стал инструктором по парашютному спорту.

Зачем запускать Tesla в космос?

— Потому что это круто.

Еще несколько вопросов тебе задаст наш сегодняшний гость Николай Землянский, редактор Хабра.Спасибо большое, Борис.

Я хочу вспомнить недавно вышедший фильм, «Бегущий по лезвию 2049», там у Агента K была андроид-помощница. — Привет, Борис. Когда они общались и ему что-то не нравилось он мог сказать: «Маша, стервозность минус три» или «Маша сексуальность плюс пять». Не помню, как ее звали, пусть будет Маша. Как ты думаешь насколько это реально в обозримом будущем и есть ли вообще в этом смысл? В зависимости от этого подстраивалось общение с помощницей.

Это все на самом деле одна большая история и вот почему. — Я уже немного рассказывал про то, как мы боремся с оскорбительностью ответов Алисы. Сейчас мы пользуемся этими моделям по очень простому принципу: если модель говорит, что ответ оскорбительный, мы не даем ей ответить. Чтобы Алиса не оскорбляла собеседника, мы фактически учим некоторые модели предсказывать, является тот или иной ответ оскорбительным, и если да, то в какой степени. На самом деле у нас уже есть модель которая оценивает градацию этой оскорбительности, и если бы возникла продуктовая необходимость, мы уже могли бы сделать такой ползунок который делает ответы более или менее дерзкими. В терминах, которыми ты говоришь, мы выкручиваем оскорбительность ответа на ноль. Это, конечно, потребует какой-то работы определенной для каждой конкретной характеристики, но сделать такого ассистента, характеристики которого можно ползунками настраивать, можно будет не через 20 лет, а уже довольно скоро, как мне кажется. Подход, который мы используем для этого, можно и к другим характеристикам поведения системы применить.

Это фильм о мужчине который влюбился в голосовую помощницу, которая управляла его домом. — Раз ты сказал, что это не такой далекий вопрос, как я думал изначально, то вспомню следующий фильм, это фильм чуть более ранний, фильм «Она». Как ты считаешь, такой сценарий вообще возможен, когда и какие могут быть с этим связаны проблемы? Весь фильм разворачивается на трагедии взаимоотношений.

Решение по ним мы обычно принимаем с помощью экспериментов. — Это интересный вопрос, это то, что мы называем продуктовыми вопросами, а не технологическими. Если бы мы стали так делать, то в конечном итоге сделали бы две модели и посмотрели, какая пользуется большей популярностью у пользователей. Я могу пофантазировать почему это хорошо или почему это плохо. То есть сделать действительно правдоподобную имитацию человеческого интеллекта и наделить помощницу какими-то характеристиками, сделать ее не просто бездушной машиной, а эмоциональной. Чтобы сделать такую виртуальную помощницу в которую можно было бы влюбиться, нам нужно как минимум научиться проходить тест Тьюринга причем нормально. Потом, конечно, нам захочется, чтобы она была не только виртуальной. Это все решаемые проблемы, как мне кажется, с технологической точки зрения, но не в ближайшие несколько лет. Если бы это был робот, который бы ходил и как-то себя вел, это могло бы разрушить иллюзию. Наверное, в виртуальную даже проще влюбиться:  когда мы ее не видим, она существует для нас где-то в компьютере как виртуальный собеседник в мессенджере, нам проще поверить, что это человек.

Если сделать такого робота «почти человеческого», то это вообще не зайдет. Есть такая проблема, которая называется «зловещая долина» по-русски, психологическая проблема, которая заключается в том, что если сделать имитацию человека очень правдоподобной, но вот совсем чуть-чуть неправдоподобной — какая-то мимика мельчайшая будет выдавать, что это не человек — то у нас подсознательно в мозге это вызывает резкое отторжение, резкий негатив. Нужно решить эту проблему и сделать сверхправдоподобную человеческую имитацию.

Мне интересно, она актуальна для взаимодействия с голосом, то есть не когда человек видит объект, а когда слышит и воспринимает как-то иначе?Здорово, что ты вспомнил про эту проблему.

Если бы вы общались в текстовом чате, то отличий было бы еще меньше, потому что элемент с голосом ушел бы. — Как мне кажется, для голосовых интерфейсов, по причинам, о которых я чуть раньше говорил, это намного менее актуально, потому что когда ты общаешься с кем-то не вживую, а через какое-то устройство, не взаимодействуешь напрямую с человеком — это почти то же самое, как ты общаешься с реальным собеседником с помощью устройства, намного меньше отличий. В случае с человеческими лицами и мимикой это, видимо, какой-то древний эволюционный механизм, как-то он нам прошит в голову. Соответственно, эта проблема все менее остро стоит, все меньше вещей, за которые твой мозг мог бы зацепиться и счесть, что его пытаются обмануть. А мессенджер и чат — это же совсем новое, у нас нету никаких странных поведенческих механизмов, с ними связанных, и не будет уже.

То есть чем меньшее количество каналов чувственного взаимодействия, тем проще этой проблемы избежать.

— Как мне кажется, да, тем меньше вещей, которые могут выдать в твоем собеседнике имитацию интеллекта, имитацию личности.

В принципе, я с тобой согласен, хотя знаешь, я недавно читал, что уже почти половину японских мужчин не смущает отличие тела андроида от тела реальной женщины.

— В Японии очень интересная культура, там все по-другому.

Есть ли место в разработке голосовых помощников не программистам? — Меня как гуманитария интересует вопрос. Можно ли устроиться в этой сфере, имея такую специальность? Потому что теоретически это работа с речью, работа с голосом, это психология, лингвистика.

У Google, насколько я знаю, над Google-ассистентом работает в том числе команда сценаристов и психологов, которая занимается непосредственно созданием личности и всех аспектов с этим связанных. — Отличный вопрос. Безусловно, для такой работы есть место, и мы дальше больше будем прибегать к услугам таких специалистов. У нас как бы масштабы пока не такие, но, тем не менее, мы с самого начала работы над Алисой привлекаем разнообразных специалистов гуманитарных специальностей.

То есть вы это делаете, но пока отдельного подразделения в Яндексе под эти цели не отводится, да?

Это достаточно закономерно для Яндекса. — Пока да. У нас один человек делает намного больше чем в Google, и мы пока еще не можем себе позволить нанимать огромные команды сценаристов, для того чтобы делать такие вещи. У нас по мировым меркам не очень большая компания, которая, однако, делает миллион вещей. Но чем больше мы растем, тем больше таких специалистов становится.

Или есть ли смысл в будущем перевести Алису на английский?Есть ли смысл например переводить голосовой помощник с английского на русский, как с той же Siri.

Это же не так работает, что у нас есть помощник на русском, а потом мы берем то, что сказал пользователь, и переводим с английского на русский, а то что сказала Алиса, переводим с русского на английский. — Мне кажется, во-первых, перевод не совсем правильный термин, который может ввести в заблуждение. Например, для того чтобы это работало на другом рынке, американском или каком-нибудь еще англоговорящем, нам нужно очень много разнообразных данных для этого языка. Это будет работать очень плохо. Мы ничего не знаем о том что они ищут и как они спрашивают. Грубо говоря, когда пользователи в Америке ищут где поесть, им нужно совсем не то же, что в России. У нас такие данные по сути есть только для русского рынка, поэтому выйти на какой-то другой рынок достаточно тяжело. У компании, которая работает на этом рынке, есть уже огромное количество данных на которых можно обучать их поисковые системы, системы выдачи ответов на вопросы. Качество поиска будет намного хуже, потому что нету данных взаимодействия с живыми пользователями, на которых все качество современных поисковых систем и строится. Та же самая проблема, почему у Гугла нету практически конкурентов — невозможно просто взять, пойти куда-то, сделать свой поисковый движок.

То есть если доступен большой пласт локальных данных, то, в принципе, перевести можно, я правильно тебя понимаю?

Но данные, которые нужны, местами очень дорогие и могут быть недоступны. — Да, наверное можно так сказать, в принципе да. Для этого нужно просто записать сколько-то десятков сотен часов речи, когда дикторы читают определенный текст и обучить на этом систему. Допустим, сделать распознавание речи для какого-то языка или синтез речи — это не очень большая проблема, у нас есть опыт разработки распознавания речи для других языков. Этих данных скорее всего не будет, Google их не продаст никому. А вот взаимодействие живых пользователей с поисковой системой — то без чего ни один нормальный ассистент не сделать, потому что он должен искать информацию, помогать тебе, давать ответы на вопросы.

Спасибо Борис, было очень здорово с тобой пообщаться.

— Всегда пожалуйста.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Иди-ка ты на !@# со своей «токсичностью»

IT — не детский садик. Это место для взрослых, руководствующихся логикой и здравым смыслом. Их не надо опекать, не надо следить за словами, не надо переживать, что у них сформируются комплексы. Если человек некомпетентен, надо дать ему об этом явно ...

nomoregoogle.com — свежий сборник альтернатив сервисам технологического гиганта

Доминация Google в ряде сегментов совокупно с политикой компании стали вызывать так много вопросов в последние годы, что практически на всех тематических форумах и площадках пользователи начали активно делиться своим «Google-free» опытом — информацией о попытках частично или полностью избавиться ...