Хабрахабр

Что будет на конференции UseData Conf 2019?

Ура! Мы завершили формирование программы конференции UseData Conf 2019! Эта конференция для тех, кто решает практические задачи с помощью методов машинного обучения. Между идеальным алгоритмом в вакууме и его применением на реальных данных часто лежит пропасть. Мы хотим, чтобы те, кто умеет преодолевать эту пропасть, встретились и смогли обменяться опытом.

Об этих и других темах подробнее под катом.
В программе мы сформировали 5 секций. Магия машинного обучения для управленцев, истории применения ML для анализа эффективности рекламы в телевизоре, беспилотные игрушечные машинки, нефть и автомобильные номера — это лишь часть докладов на UseData 2019. Доклады секции сгруппированы по направлениям задач, которые они решают.

  • Машинное обучение и анализ данных в коммерции.
  • Компьютерное зрение.
  • Обработка текстов на естественных языках.
  • Системы принятия решений.
  • Фреймворки и инструменты по машинному обучению.

По каждой из этих тем нашлось что-то интересное.

Машинное обучение и анализ данных в коммерции

Эффект от ТВ-рекламы: оценка и оптимизация
Александра Ломакина, JOOM

Проблема в том, что я не знаю, какая именно.
Половина моего рекламного бюджета тратится впустую.

Это цитата Джона Уонамейкера, американского предпринимателя, который открыл первый универмаг и первым применил ценники. Он что-то понимал в коммерции.

Как понять, что пользователь пришел от рекламе в телевизоре, какими инструментами отслеживать и какие данные для этого нужны? В компании Joom тоже задумались о том, какая часть бюджета на ТВ-рекламу тратится впустую и поставили измерить ее эффективность перед дата сайентистами.

Спойлер: пространство для оптимизации огромно. Александра прошла этот путь до конца и готова поделиться ответами.

Машинное обучение для предсказания продаж интернет-магазина OZON.RU. Оптимизация цен с помощью моделей предсказания спроса.
Александр Алексейцев, OZON.RU

OZON.ru — очень крупный магазин с огромным количеством товаров, сложной логистикой и ценообразованием. Над пополнением складов магазина и прогнозом спроса работает модель. Большой магазин — много данных, на которых модель может учиться. С одной стороны это хорошо, удобно строить прогнозы. С другой — в таких масштабах быстро проявляется ошибка, если она есть.

Ничего страшного для одного товара, но в OZON.ru таких товаров сотни каждый день. Например, товара долго не было на складе, а потом он появился и модель ошибается с прогнозом. Из-за ошибки складу может не хватать товаров или он будет переполнен.

Его доклад это не только успешный кейс применения машинного обучения, но и интереснейший экскурс в предметную область. Как работать с ошибками прогноза и поставок, и как страховаться от ошибок расскажет Александр. Если вы строите модели для прогнозов продаж, найдёте для себя много нового.

Компьютерное зрение

В этой секции поговорим о распознавании гос. номеров, проблемах ресурсов и послушаем научный доклад.

512 КБ памяти хватит всем! Идентификация человека по лицу на микроконтроллере с камерой
Александр Сморкалов, Xperience.ai

Бывает, что нужно распознавать лица на вычислительно слабых устройствах, которые работают от батарейки. На них мало памяти, а про GPU там и вовсе не слышали. Александр поделится историей успешного переноса модели на такие устройства. Опыт переноса моделей на нестандартные устройства сильно расширяет кругозор. Идеи могут пригодиться в ситуации, когда устройство стандартное, но потребляемые ресурсы неприемлемы.

Wasserstein Regularization for Generative and Discriminative Learning
Guido Montufar, институт Макса Планка

Мы очень рады, что Ваня Ямщиков уговорил своего коллегу Гвидо приехать к нам на конференцию. Это единственный научный доклад на конференции, но практическая применимость всё равно несомненна. Борьба идёт вокруг того, чтобы распознавать или генерировать классы с большим разбросом внутри, например, изображений. Помните классическую задачу про собачек-кошечек, в которой собаки разных пород не похожи друг на друга? Так вот, эти различия — детский лепет по сравнению с тем, что бывает.

Это усугубляет проблему затухания градиента и бесконечная борьба брони и снаряда бесцельно расходует сотни нефти вычислительных ресурсов. Я не эксперт в этой теме, но, мне кажется, что такие задачи вынуждают создавать нейросети с большим количеством слоёв. Методы, которые исследует Гвидо, позволяют решать задачи с большим разбросом внутри каждого класса дешевле и быстрее.

Как найти и закрыть гос. номер на фото автомобиля и помешать копированию контента c помощью adversarial attack
Илья Сергеев, Авито

Когда-то очень давно я работал в Яндексе, и Я.Карты создавали панорамы улиц, совместно с командой компьютерного зрения. На панорамах надо было замазывать лица и номера автомобилей, которые случайно попали в кадр. Готовых решений для этого не существовало, пришлось пилить самим.

В 2019 году эта задача уже не выглядит захватывающе. В Авито для похожей задачи тоже сделали своё решение. номер за час на коленке. Кажется, что сейчас кто угодно в состоянии научиться закрывать гос. Оказалось, что некоторым компаниям проще копировать изображения у Авито, заменяя на картинке знак своим, потому что задетектить его проще, чем номер. Но так только кажется. Авито пришлось предпринимать специальные усилия, чтобы и вывести на чистую воду контентных воришек.

Части этой истории уже были опубликованы на Хабре, но на нашей конференции Илья представит её целиком в форме рассказа, а не статьи.

Как нейросети могут помочь построить картину происходящего под землей и определить, где искать нефть
Дарима Мылзенова, Gazprom Neft

Кто в детстве решал модельную задачу из компьютерного зрения про распознавание рукописных цифр? Кто сам писал цифры на бумажке, сканировал её и проверял, что видит модель (ничего)? Примерно то же ощущение испытывают люди, сталкиваясь с задачами из реального мира.

Дарима расскажет не только о том, на что способны нейросетевые модели в области анализа земных недр, но и том, сколько всего пока не умеют, а хотелось бы. Мы очень любим задачи из реального сектора, потому что на них хорошо видна разница между данными на которых люди привыкли учиться и данными из жизни: неточными, с ошибками и ограничениями, с разной разрешающей способностью, с пробелами.

Обработка текстов на естественных языках

Может ли машина понимать анекдоты и шутки? Как научить модель понимать странные имена? А распознавать код?

Поиск аномалий в анкетных данных на примере ФИО
Георгий Шушуев, ЦФТ

Это забавный кейс от системы денежных переводов «Золотая Корона». Некоторые пользователи системы с трудом пишут своё имя по-русски, да и имена у них непривычные. Бутнару Иурии, Сашка Седлай Коня Аккуратно, Eyide Lucky, Пулотов Аслам Ахмат Жон Угли, Бэбэлэу ИонНо, Устаю Уже Ильясович — что из этого имя? В этом наборе букв есть имена, но вы задумались, верно? Здесь и возникает сложность — научить модель распознавать имена, даже если у человека не всегда это получается.

Георгий расскажет про эволюцию детектора аномалий в анкетных данных от марковской модели до нейросетевой и поделится лайфхаками разработки таких детекторов для наборов коротких текстов. Мы любим истории об успешном обучении без учителя, и это как раз одна из них.

Machine Learning for Code
Егор Булычев, source

Это обзор самых свежих событий из области работы с кодом. Как найти репозитории, которые похожи по решаемым задачам? Как на GitHub найти разработчика с похожим опытом? Как вообще формализовать эту похожесть? И как всё оптимизировать, чтобы работать со всем GitHub сразу? Егор занимается ровно этими задачами и поделится своим опытом.

Можно ли научить машину чувству юмора?
Владислав Блинов, Валерия Баранова, Тинькофф

Владислав и Валерия учат машину понимать шутки на русском языке. Разве это не прекрасно? Здесь не о чем рассуждать — просто надо прийти и послушать.

Серьёзная работа на весёлую тему. С практической точки зрения всё как мы любим: размеченных датасетов почти нет, воды нет, растительности нет, населена роботами.

Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS)
Владимир Бугай, Knoema

Как сделать нормальный поиск в ситуации, когда чисел много, а текста мало? Knoema — агрегатор аналитических данных, которые почти все имеют вид временных рядов. Если зачем-то вы хотите узнать последние оценки нефтяных запасов Венесуэлы или объём производства алмазов в Конго, то это место, где есть свежие данные. Вопрос только в том, как их найти.

Чтобы искать хорошо, приходится строить модель связей между данными. Некоторые данные содержатся в базе непосредственно, некоторые — вычислимые. Владимир расскажет о нескольких важных шагах в разработке поиска по нестандартным данным: как относительно быстро собрать такой поиск из готовых компонентов, как дообучить его с помощью своей дополнительной информации, например, кликов, как уменьшать размер индекса и оптимизировать прочие узкие места. Сейчас это уже нейросетевая модель на основе USE.

Системы принятия решений

Modern Neural Net Architectures / Year 2019 version
Григорий Сапунов, Intento

Григорий, кажется, не нуждается в представлениях. Он сооснователь компании Intento, регулярный спикер и ведущий секций на конференциях о машинном обучении, человек, который следит за индустрией и двигает её. Из последних регалий, о которых ещё не все слышали, — включение в список Google Developer Expert в категории Machine Learning. На момент написания этого текста в списке всего 109 человек, и только один из них — из России. Гриша, поздравляем!

Какие новые задачи сети научились решать? Это как раз тот уровень экспертизы, на котором можно сделать интересный обзор новинок в мире нейросетей за последние пару лет. В каких направлениях ждём следующих прорывов? Что для этого пришлось сделать?

Что такое хорошо и что такое плохо: метрики для рекомендательных систем
Ирина Пчелинцева, Яндекс

Как измерить эффективность рекомендательной системы для фильмов? Предсказать, какую оценку поставит конкретный зритель конкретному фильму, и предлагать его посмотреть, только если оценка высокая. Но есть нюансы.

Но, представьте, как вы возвращаетесь с работы. Большинство уверенно скажет, что «Крестный отец» или «Список Шиндлера» хорошие фильмы, даже если сам их не видел. В таком состоянии вряд ли захочется смотреть умный и глубокий фильм, а тупой боевик, которому красная цена шесть из десяти — зайдет. День был тяжелый: проект не клеится, начальник съел весь мозг, и завтра будет так же. Поэтому рекомендательная система должна предлагать то, что вы посмотрите, а не то, что принято хвалить.

Чтобы узнать о них, приходите на выступление Ирины. Это лишь одна из неожиданных сторон задачи, и таких сторон — много.

Разработка и внедрение интеллектуальных агентов
Андрей Иванов, Тинькофф

Интеллектуальный агент — это часть системы, которая решает какую-то интеллектуальную задачу за человека. Разрабатывает агента специалист по машинному обучению, некоторые задачи которого агент возьмет на себя. Например, для банка это рекомендательная система, которая может предложить кредит, вклад, карту или другой продукт в зависимости от того, что известно о пользователе.

У Андрея очень практическое выступление: как в Тинькофф используются интеллектуальные агенты (на примере «историй»), какие трудности возникают с их разработкой и какие инструменты в этом помогают.

Прогнозирование инцидентов в процессе бурения
Иван Исаев, Altarix

Еще раз про реальный сектор и нефть. Иван расскажет хорошую практическую историю о том, как получить от заказчика немного данных, сделать на их основе полезную модель, получить после этого больше данных, и уже на них получить достойный результат.

Machine Learning Based Autonomous Car Driving Algorithms
Saloni Garg

Эта история — не та, чем кажется. Saloni довелось решать задачи, о существовании которых большинство из нас не догадывается.

Водители экономят его с помощью множества удивительных техник: не включают фары, едут на нейтрали, не соблюдают рядность. В бедном регионе топливо для автобуса ценный ресурс. Как в таких условиях принудить его к безопасному вождению?

Как работать в таких условиях, и расскажет Saloni Garg. Денег вокруг мало, поэтому железо для решения задачи самое примитивное, строить большинство оценок нужно локально, видео с камеры на сервер не передать.

Фреймворки и инструменты по машинному обучению

Добавляем контроль данных в ML pipeline
Артём Селезнёв, Мегафон

От МегаФон ждёшь или рекомендательных систем с новыми услугами и тарифами, или рассказов про Елену. Но нет, в этом раз Артём поведает об опыте внедрения инструмента DVC и дополнительные навороты, которые были сделаны поверх него. Навороты интересные и нетривиальные. Если вы за воспроизводимость экспериментов с машинным обучением, приходите на доклад.

AWS DeepRacer: учимся сложному через игру
Александр Патрушев, AWS

Правда же, интересно было бы потренировать модель для гонок на беспилотном автомобиле? И ещё так, чтобы разбить при этом минимум автомобилей. В идеале, хочется иметь приближенную к реальности виртуальную среду, в которой ловить большинство багов. Один из вариантов такой среды — использование моделей. Игрушечные машинки, в масштабе 1 к 18, используются для тренировки алгоритмов. Александр поделится историей создания AWS DeepRacer и трудностями, которые возникают при разработке виртуальной среды для обучения и при переносе модели на реальную технику.

Управленческий доклад вне секций

Project Management 2.0: AI Transformation
Эдуард Тянтов, Mail.ru Group

Мир меняется и ML-модели все чаще проникают в наши продукты, а иногда становятся их центральной частью. Приходилось ли вам когда-нибудь на гневное «Почему?!!» от начальства, виновато отвечать «Ну, модель так настроилась...»? Начальство, выросшее на практиках разработки софта конца прошлого века, часто не понимает, чего ждать от машинного обучения и какая цена у этой магии.

Что меняется в цикле разработки, в постановке задач, в проверке качества? Эдуард в своём докладе посмотрит на проблему со стороны руководства командой и продуктом. Самый известный проект, на мой взгляд, — Artisto, приложение для стилизации видео. Он — как раз тот человек, который может много об этом сказать, так как уже много лет успешно ведёт проекты на базе машинного обучения в Mail.ru.

Бонус-трек

А ещё у нас будет трёхчасовой hands-on воркшоп от Яндекса по сбору данных при помощи Яндекс.Толоки! Вести его будут люди, которые разрабатывают Толоку, и те, кто ею пользуется на постоянной основе: Алексей Друца и Ольга Мегорская.

Дальше сможете выбрать одну из нескольких предлагаемых задач по разметке данных, сформировать задание для толокеров, подготовить проверочные задания и задания-«ловушки» для читеров. Вы получите общее представление о работе механизмов краудсорсинга, подобного Толоке или Mechanical Turk. В конце попробуете определить истинные оценки по полученной разметке и подозрительных толокеров при помощи алгоритмов, которые предлагает система.

Воркшоп будет полезен тем, кто задумывался о сборе данных через Толоку, но не решался из-за опасности потратить весь бюджет без подготовки.

Целый день докладов, митапов, общения, машинного обучения и кейсов — красота! Чтобы перейти через пропасть между алгоритмами в вакууме и реальными, ждем 16 сентября. До встречи в Инфопространстве! Следующее и окончательное повышение цен на UseData Conf 2019 уже 9 сентября, поэтому бронируйте билеты уже сейчас, чтобы зафиксировать цену.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть