Хабрахабр

Наука эмоций: как умные технологии учатся понимать людей

Валентина Евтюхина, автор канала Digital Eva, и специалисты проектной компании и R&D лаборатории Neurodata Lab специально для блога Нетологии подготовили статью о том, как развиваются технологии в сфере распознавания эмоций.

Наука об эмоциях стала популярной не так давно, и в основном благодаря Полу Экману — американскому психологу, автору книги «Психология лжи» и консультанту популярного сериала «Обмани меня», который основан на материалах книги.


Пол Экман и Тим Рот — исполнитель главной роли в сериале «Обмани меня», чей персонаж списан с самого Экмана

Бум в стартап-среде случился в 2015-2016 годах, когда сразу два технологических гиганта — корпорации Microsoft и Google — доступными для обычных пользователей свои пилотные проекты для работы с наукой эмоций. Сериал стартовал в 2009 году, и в то же время значительно вырос публичный интерес к теме распознавания эмоций.

image
Сервис для распознавания эмоций Emotion Recognition, запущенный Microsoft
в 2015 году

Например, Text Analytics API — один из сервисов пакета Microsoft Cognitive Services, которые позволяют разработчикам встраивать готовые «умные» алгоритмы в свои продукты. Это стало толчком к созданию самых разных приложений и алгоритмов на базе технологии распознавания эмоций. Теперь эмоции можно определять по тексту, звуку голоса, фото и даже видео.
Среди других сервисов пакета: инструменты распознавания изображений, лиц, речи, и многие другие.

Агентство Gartner утверждает, что наш смартфон в 2021-2022 годах будет знать нас лучше, чем наши же друзья и родственники, и взаимодействовать с нами на тонком эмоциональном уровне.

Рынок технологий распознавания эмоций — что с ним?

Он есть, но он молод, у него еще все впереди.

Сейчас рынок детекции эмоций переживает бум и по оценке западных специалистов к 2021 году он вырастет, по разным подсчетам, от $19 млрд до $37 млрд.

Так, по мнению влиятельного агентства MarketsandMarkets, глобальный объем рынка эмоций в 2016 г. составил $6,72 млрд, и предполагается, что к середине 2020-х гг. он увеличится до $36,07 млрд. Рынок эмоциональных технологий не монополизирован. Тут найдется место и для корпораций, и для лабораторий, и для стартапов. Более того, нормальная рыночная практика: корпорации интегрируют в свои решения наработки компаний поменьше.

Эмоциональные и поведенческие технологии востребованы в различных сферах, включая медицинскую.

Это может помочь людям с расстройствами аутистического спектра, депрессией и в сложных случаях в неврологии и медицине. Обращаясь к зарубежному опыту, вспомним, как компания Empatica под руководством Розалинд Пикард первой в мире получила несколько недель назад разрешение от надзорных органов США, ответственных за клинические испытания (FDA-клиринг), на использование их носимого браслета Embrace, который не только фиксирует физиологические данные о состоянии владельца, но и оценивает его эмоциональный фон и предсказывает вероятность наступления сложных для организма ситуаций.

Израильская компания Beyond Verbal совместно с Mayo Clinic ищет в голосе человека вокальные биомаркеры, по которым определяются не только эмоции, но и закладывается возможность прогнозирования аортокоронарных заболеваний, болезней Паркинсона и Альцгеймера, что уже подводит эмоциональную проблематику к теме геронтологии и поиску путей замедления старения.

Если говорить о применимости технологий, то тут преимущественно задействована B2B сфера в секторах вроде интеллектуального транспорта, ритейла, рекламы, HR, IoT, gaming.

Но и в B2C тоже есть спрос: EaaS (Emotion as a Service) или же облачное аналитическое решение (Human data analytics) позволит любому пользователю загружать видеофайл и получать по нему всю эмоциональную и поведенческую статистику для каждого фрагмента записи.

Более того, через пару лет технология по распознаванию эмоций будет в каждом смартфоне. Если речь идет о предвыборных дебатах на пост президента (будь то России или США), то от алгоритма едва ли что-то скроется.

Стек технологий и науки

Бум AI был предсказан на 2025-2027 годы.

Трендом станет создание умных интерфейсов распознавания человеческих эмоций — программное обеспечение позволит определять состояние пользователя в произвольный момент времени при помощи обычной веб-камеры.

Это перспективная ниша, так как определение эмоций человека может быть использовано в коммерческих целях: от анализа восприятия видео- и аудиоконтента до расследования криминальных дел.

Например, в новом iPhone X встроена технология распознавания лица Face ID, которая не только разблокирует телефон, но и может создать эмодзи с вашей мимикой: С другой стороны, это безграничные возможности развлекательной индустрии.

Основная масса новых продуктов в сфере эмоциональной науки строится на семи базовых эмоциях и микроэкспрессии лица, которая отражает наши эмоции на уровне, неподвластном контролю мозга. Сознательно мы можем сдержать улыбку, но легкие подергивания уголков губ останутся, и это будет сигнал для технологий распознавания эмоций.

Использование этих методов в психиатрии или уголовном делопроизводстве позволит узнать максимум об эмоциональном состоянии человека и его истинном настрое благодаря информации о мельчайших изменениях в мимике и телодвижениях. Есть также блок технологий, специализирующихся на анализе речи, голоса и взгляда.

Сейчас компании и отдельные команды могут использовать открытые научные данные о распознавании эмоций и использовать их в стеке с технологиями, формируя область эмоциональных вычислений (affective computing).

Колоссальный вклад в развитие рынка эмоциональных технологий внесла пятерка FAANG (Facebook, Apple, Amazon, Netflix, Google) и техногиганты вроде IBM.

Технологии распознавания эмоций и закон

Прямых законодательных барьеров для эмоциональных технологий нет, а сама индустрия регулируется достаточно слабо и точечно. Есть ожидаемые барьеры и опасения: прежде всего, это проблема privacy и защиты персональных данных.

Эмоции — это приватные, довольно личные данные о человеке, его состояниях, ощущениях, откликах на стимулы, людей и среду, о мыслях и намерениях, подчас не полностью осознаваемых рационально.

Вместе с тем всеобщая диджитализация, распространение гаджетов и девайсов любого рода, повсеместное обращение к изображениям и видео (несколько миллиардов видео попадает в сеть ежедневно), публичность в соцсетях позволяют эффективно извлекать эмоциональные данные из общего потока и использовать их для анализа человека — как потребителя товаров и услуг, и как пользователя. И все это должно проходить в правовом поле, корректно и этично.

Новый европейский регламент по защите персональных данных (GDPR) предполагает ряд ограничений: данные для обучения и тренировки алгоритмов машинного обучения можно будет использовать свободно, если они:

  • они остаются деперсонализированными, то есть биосенсорные данные отделяются от биометрии (идентификация людей);
  • если соблюдается групповой формат (анализ толпы, множества людей, а не единичных субъектов);
  • если ведется съемка, человек должен знать об этом и быть с этим согласен, в противном случае это будет являться нарушением регламента и повлечет за собой ответственность.

Как будет разворачиваться история с нормативным регулированием в России, покажет время.

Где в ближайшие годы понадобится распознавание эмоций

Здоровье и Health tech

Индустрия здоровья активно внедряет самые современные методы сбора и анализа данных о пациентах или пользователях, так как машинные алгоритмы определяют симптомы, используя сотни и тысячи похожих случаев.

Уже существуют мобильные приложения, которые анализируют по фото и тексту психоэмоциональное состояние, и чем больше человек общается с программой, тем лучше она обучается, «понимает» его и дает точные прогнозы лечения.

Другое, когда оно по вашему внешнему виду оценивает степень усталости или определяет какие-то отклонения от нормы. Одно дело, когда устройство просто улавливает, «понимает» на своем уровне ваше настроение и в соответствии с ним включает музыку, регулирует свет или готовит кофе. К примеру, болезнь Альцгеймера или Паркинсона. Или заболевания.

Задолго до своего проявления болезнь начинает влиять на мышцы лица, на скорость движения глаз, на неощутимые, казалось бы, изменения в голосе и микродвижениях.

Криминалистика

Сериал «Обмани меня» вышел на экраны в 2009 году и сразу же получил мировую популярность. Главный герой Доктор Лайтман умеет читать правду по микромимике лица. Это его «суперспособность», которая помогает найти убийцу и раскрыть сеть запутанных преступлений.

Можно снять человека в комнате для допроса и потом наложить на видео специальную программу, которая прогнозирует процент эмоций на его лице — злость, страх, горечь, обида и так далее. Нейроинтерфейсы могут все то же самое, только еще лучше, качественнее и быстрее. Эти данные помогут следствию понять, в какой момент человек мог обмануть или чего-то недоговорить.

Мониторинг социальных активностей

Считается, что интернет не передает эмоции, но это не так. По серии твитов или постов в Фейсбуке можно с высокой точностью определить, в каком настроении и состоянии находился пользователь в тот момент, когда это писал.

Самый простой пример определения психоэмоционального состояния по стилистике текста — всем хорошо известная ситуация, когда человек начинает ставить точку в конце сообщения, а его собеседник воспринимает это как сигнал о том, что в разговоре что-то пошло не так.

В глобальных масштабах при помощи машинного обучения можно создать систему, которая будет отслеживать вспышки гнева, просьбы о помощи или страх в сообщениях и реагировать на них — например, отправлять сигнал в службы спасения.

Реклама

Уже сейчас мировые ритейл-сети максимально интегрируют онлайн в офлайн, пытаясь узнать, что хочет покупатель и что он, вероятнее всего, купит. Когда нейроинтерфейсы достигнут уровня точного высокочувствительного распознавания эмоций, реклама в витрине торгового центра будет за доли секунд подстраиваться под настроение проходящих мимо людей. Подобная технология показана в фантастических фильмах, например, «Особое мнение» и «Бегущий по лезвию 2049».

image
Кадр из фильма «Бегущий по лезвию 2049», где голографический рекламный
гиноид реагирует на эмоции на лице главного героя.

Теперь машина почти безошибочно опознает настроение в отзывах покупателей на Amazon и кинорецензиях на Rotten Tomatoes, что помогает улучшить сервис и предугадать популярность продукта у пользователей. Примерно год назад, в апреле 2017 года, исследовательская группа из Сан-Франциско научила нейронную сеть LSTM точнее распознавать эмоциональную составляющую текста.

Игровая индустрия

Когда вышла первая модель очков Google Glass, предполагалось, что управление жестами выйдет на новый уровень — для того, чтобы читать текст на внутренней стороне линзы, достаточно было провести глазами сверху вниз, чтобы система поняла, что вы уже прочитали этот абзац и можно показывать следующий. Несмотря на то, что сам гаджет не вышел за рамки прототипа, история с исследованием движений глаз переместилась в новое поле — игровое.

Компания-разработчик технологии распознавания эмоций Affectiva помогла создать игру Nevermind, в которой сложность зависит от уровня напряжения играющего, а сюжет подстраивается от состояния стресса или спокойствия игрока. Разработчикам игр очень важно понимать, как и в какой момент игрок себя чувствует, как на него действуют спецэффекты и игровые препятствия.

А что в России? Опыт Neurodata Lab

После того как в начале 2016 года команда фонда Envirtue Capital пришла к мысли, что во многих аспектах имеющийся венчурный рынок России в части технологий распознавания эмоций не отвечает ожиданиям инвесторов, было принято решение развивать проекты в рамках своей R&D лаборатории, полностью автономной и финансируемой из собственных источников. Так родилась компания Neurodata Lab LLC.

Междисциплинарный характер исследований эмоций  предопределил наш выбор в пользу смешанной команды, что позволяет думать над решением задач с разных точек зрения, объединять в одном контуре как сугубо техническую часть, так и взгляды и идеи биологии, психофизиологии и нейролингвистики».
Георгий Плиев
Управляющий партнер Neurodata Lab «С сентября 2016 года начал формироваться наш коллектив, включающий сегодня как научных сотрудников — специалистов по естественным и когнитивным наукам, так и технических экспертов с компетенциями и бэкграундом в области компьютерного зрения, машинного обучения, науки о данных.

Neurodata Lab разрабатывает решения, которые охватывают широкий спектр направлений в области исследований эмоций и их распознавания по аудио и видео, в том числе технологии по разделению голосов, послойного анализа и идентификации голоса спикера в аудиопотоке, комплексного трекинга движений тела и рук, а также детекции и распознавания ключевых точек и движений мышц лица в видеопотоке в режиме реального времени.

Эта технология открывает новые горизонты в изучении движений глаз человека в естественных, а не лабораторных, условиях и ощутимо расширяет исследовательские возможности — теперь можно узнать, как человек рассматривает картины, реагирует на звук, цвет, вкус, каково движение глаз, когда он счастлив или удивлен. Один из таких проектов — разработка прототипа софтового айтрекера EyeCatcher, позволяющего извлекать данные движений глаз и головы из видеофайлов, записанных на обычную камеру. Эти данные будут использованы как база для создания более совершенной технологии распознавания человеческих эмоций.

При детекции и распознавании эмоций важно учитывать, что человеческие эмоции — очень вариативная, «ускользающая» сущность, которая зачастую меняется от человека к человеку, от социума к социуму; есть этнические, возрастные, гендерные, социокультурные различия. «Наша цель — конструирование гибкой платформы и разработка технологий, которые будут востребованы частными и корпоративными клиентами из различных отраслей, включая нишевые. Это та фаза, на которой коллектив нашей лаборатории сейчас и сосредоточен».
Георгий Плиев
Управляющий партнер Neurodata Lab Чтобы выявить закономерности, нужно обучать алгоритмы на очень больших выборках качественных данных.

Поэтому в качестве одного из своих первых проектов команда Neurodala Lab собрала русскоязычный мультимодальный датасет RAMAS (The Russian Acted Multimodal Affective Set) — комплексный набор данных об испытываемых эмоциях, включающий параллельную запись 12 каналов: аудио, видео, айтрекер, носимые датчики движения и пр. Одна из основных сложностей, с которыми сталкиваются исследовательские группы при изучении эмоций, — ограниченность и «шумность» данных для работы с эмоциями в естественной обстановке или необходимость использовать неудобные носимые приборы для отслеживания эмоционального состояния участника эксперимента, которые искажают восприятие. В создании датасета приняли участие актеры из ВГИКа, воссоздающие различные ситуации повседневного общения. о каждой из ситуаций межличностного взаимодействия. Сегодня доступ к мультимодальной базе данных RAMAS предоставляется бесплатно академическим институтам, университетам и лабораториям.

image

Чтобы решить эту известную проблему, специалисты Neurodata Lab разработали и запустили собственную платформу Emotion Miner для сбора, разметки, анализа и процессинга эмоциональных данных, которая собрала более 20 тысяч участников-аннотаторов, размечающих данные, из более чем 30 стран. Наличие широкой базы данных — один из ключевых факторов качественной исследовательской работы с эмоциями, однако в лабораторных условиях и игровых симуляциях такую базу аккумулировать невозможно. На сегодняшний день Emotion Miner Data Corpus — один из крупнейших в мире размеченных мультимодальных эмоциональных видеодатасетов.

Компания принимала участие в саммите по эмоциональному искусственному интеллекту, продвигаемому совместно MIT и компанией Affectiva, а в марте 2018 года организовала и провела совместно с НИУ ИТМО первую российскую конференцию «Emotion AI: новые вызовы для науки и образования, новые возможности для бизнеса». С момента создания Neurodata Lab сотрудники лаборатории сотрудничают с академическими институтами, университетами, лабораториями и профильными центрами компетенций в США, Европе и России, и активно участвуют в крупных зарубежных конференциях, включая Interspeech и ECEM, публикуют академические статьи. В планах — создать Российскую ассоциацию по Emotion AI, консолидировать сообщество научных экспертов, лабораторий и стартапов.

Технология несет в себе потенциал для развития взаимопонимания и эмпатии, позволит решить проблемы людей с ограниченными возможностями (например, с аутизмом) и найдет ключи к облегчению социально-критических заболеваний. «Когда технология распознавания эмоций достигнет поры зрелости, она окажет значительное влияние на всю экосистему, на всю техносферу, позволит людям лучше, глубже и полнее общаться друг с другом при помощи гаджетов и с миром стремительно «умнеющих машин» с человеко-компьютерным интерфейсом. Мы полностью разделяем этический императив и исходим из того, что система сдержек и противовесов, в том числе законодательных, не превратит технологию распознавания эмоций в технологию тотального контроля. Вместе c тем, важна не только технология, но и то, как ее используют люди. Конечно, отдельные аберрации неизбежны, но устранимы».
Георгий Плиев
Управляющий партнер Neurodata Lab Ее миссия в том, чтобы помогать человеку, не ограничивая его свободу, его права, его личное пространство.

От редакции

Курсы «Нетологии» по теме:

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть