Хабрахабр

Используем данные на практике

Между идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.

Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.

Поэтому теперь мы хотим собрать отдельную конференцию для тех, кто решает практические задачи с помощью методов машинного обучения.
Мы уже видели такие кейсы на HighLoad++, но там это были отдельные доклады, к тому же приближенные к задачам обеспечения работы при высоких нагрузках. И подходим к её планированию очень просто — мы хотим сделать такую конференцию по машинному обучению и анализу данных, которая бы нам сами понравилась.

К тому же опыт в организации конференций у нас большой и, кажется, мы неплохо представляем, как должно быть хорошо. Согласен, звучит наивно, но разве «как для себя» — не лучшая мотивация? У вас, конечно, может быть свое мнение, поэтому под катом расскажу, что и как именно мы планируем обсуждать на UseData Conf 16 сентября.

Для всех конференций: HighLoad++ (всех трех экземпляров), Moscow Python Conf++, PHP Russia и многих других мы находим людей, которые делают что-то полезное с помощью технологий, связанных с тематикой конференции, и готовы этим поделиться. Мы с Онтико проводим инженерные конференции, где первую скрипку играют практики.

Такие, чтобы вытащить на поверхность то, что можно узнать только от спикера. Последние несколько лет я помогаю спикерам готовиться к выступлениям, поэтому у меня есть навык задавать правильные вопросы. Если знать, что пробовали, что зашло, что не зашло, благодаря чему получилось решить задачу, то вот тогда и можно делать свои выводы и рассматривать подобное решение или нет. Чтобы в докладе был не просто рецепт (взяли видео с камер за последнюю неделю, обучили на них end-to-end сеть и всё работает), а все ключевые точки, которые привели к конечному результату.

Есть большие и слишком академичные конференции, на которых практики составляют относительно малую долю всех докладов и соседствуют с сугубо научными результатами и обучающими материалами для начинающих. Конференций по машинному обучению, которые были бы построены по такому принципу сейчас нет. Обычно в них слишком много хайпа и слишком мало реально чего-то работающего, мы такие стараемся обходить стороной. Кроме того, есть целый кластер конференций про искусственный интеллект.

Нас интересует то, что существует не только в PowerPoint. Отличить одно от другого просто: если сделано на Python, то это машинное обучение, а если на PowerPoint — искусственный интеллект.

UseData Conf в секциях

Исходя из идеи, что каждое выступление на нашей конференции должно содержать опыт реального продакшена, мы выбрали несколько блоков тем, которые хотим раскрыть. Это не значит, что мы не будем рады и не примем заявки, не укладывающиеся в эти блоки, просто это именно то, что хорошо передается от практиков к практикам.

Все что связано с прогнозированием спроса, прогнозированием закупок, рекомендациями и расчетом индивидуальных скидок. Машинное обучение и анализ данных в коммерческих задачах. Тут будут уместны истории, как методы ML помогают лучше развивать бизнес и увеличивать прибыль в e-commerce.

Если вы научили робота брать определенные детали с конвейера, сверлить отверстия и класть обратно — это как раз то, о чем стоит рассказать в рамках этой секции. Компьютерное зрение. Ведь детали могут быть разные, они могут быть разбросаны на конвейерной ленте, может не быть ни одной готовой детали для обучения, а только CAD-модель, и множество других факторов, которые отличают идеальную академическую задачу со стерильным конвейером от того, что происходит в действительности.

Расскажите про применение NLP в нестандартных задачах или покажите, почему не подошли существующие методы и пришлось разработать свой подход. Обработка текстов на естественных языках. Машинный перевод и голосовые помощники — первые претенденты для этой секции.

Это не только задача диагностики заболеваний, но и любые системы, в которых человек опирается в своих решениях на варианты, предложенные алгоритмом, вплоть до противоракетной обороны. Системы принятия решений. Если и человек не нужен, например, система сама назначает водителя на заказ в такси (если, конечно, генерация решения не ограничивается жадным алгоритмом), то это еще лучше.

Чтобы раскрыть эту тему, мы хотели бы пригласить непосредственно разработчиков фреймворков. Фреймворки и инструменты по машинному обучению. Поэтому если вы как раз разрабатываете CatBoost, XGBoost, TensorFlow, PyTorch, LightGBM, Keras — пожалуйста, напишите нам. Такого подхода мы придерживаемся на HighLoad++ — узнавать о тонкостях инструментов от разработчиков инструментов — и постараемся реализовать на UseData Conf. Если уверены, что знаете про популярный фреймворк то, чего не знают многие data scientist’ы, и это облегчило бы им жизнь, тоже ждем заявку на доклад. 

Хотя конкурсы типа Kaggle — это скорее рекрутинговый инструмент, а не инструмент решения реальных задач, некоторые аспекты пригодятся и практикам. Конкурсы по машинному обучению делится на два блока: техника проведения конкурсов по машинному обучению, а также стратегия, как их выигрывать. В конце концов, с помощью конкурсов можно удачно сменить работу — тоже польза.

Мы понимаем, что машинно-обученные модели имеют свойство протухать. Тестирование, мониторинг, интерпретация, подготовка данных. Нужно уметь вовремя замечать, что модель не работает, и вовремя её переобучать. Многим знакома ситуация, когда обучили, запустили в продакшен, а буквально через месяц алгоритм выдает нежелательные результаты. Совокупность решения этих частных задач и позволяет использовать ML в бою. Если что-то пошло не так, важно мочь интерпретировать результаты, и нужно уметь готовить данные.

Call for Papers

Если в какой-то из перечисленных тем вы распознали свои рабочие задачи и думаете, что ваш опыт может помочь кому-то, то подавайте заявку на доклад. Если машинное обучение входит в круг ваших ежедневных задач, но вы сомневаетесь, то есть надежный способ понять, подходит ли тема — написать Программному комитету, а мы уточним детали и поможем сделать доклад полезным.

Если у вас такая специфическая задача, которую решают только гиганты индустрии, или наоборот маленький, но очень специализированный стартап, и на первый взгляд кажется, что этот опыт не пригодится другим людям, это не совсем так. Тем не менее есть общая рекомендация. Потому что взять и повторить чье-то решение все равно редко получается, если говорить о сложных кейсах, а вот натолкнуть на мысль попробовать другой подход, зайти с другой стороны, можно как раз и с очень отличающимся опытом.

Например, если мы говорим о фильтрации аномального сетевого трафика (спасибо телезрителю из Москвы Павлу, который задал вопрос на Zoom-встрече с программным комитетом), то подобная задача с разнородной обучающей выборкой и малым процентом аномалий возникает в разных областях, и можно предложить обобщения. Кроме того, от частной задачи всегда можно перейти к общему подходу.

Когда взяли библиотечные методы и все готово — это, конечно, очень здорово, но пользы мало. Самым ценным в прикладном докладе, на наш взгляд, является путь к решению, а не само решение. Интереснее, когда попробовали это, другое, нашли ограничения, напоролись на грабли, изобрели что-то, и об этом и рассказывают.

С другой стороны, если вы решаете задачи, которые в индустрии ассоциируются с машинным обучением без машинного обучения, можете показать, чем это выгодно, а еще лучше дать рецепт, когда можно следовать вашему примеру — это отлично, такой доклад нам нужен.

Call For Papers открыт до 16 июля, 16 августа мы постараемся целиком сформировать программу, а 16 сентября в Инфопространстве пройдет сама конференция UseData Conf.

Подать доклад просто — нужна примерная тема и тезисы на 2–3 абзаца, заявку можно дополнить обращением к программному комитету, в котором раскрыть детали не для публикации. Лучше подать несколько докладов, чем ни одного, тогда у нас будет больше пищи для вопросов.

Уже в программе

Мы не дожидаемся окончания приема докладов, чтобы начать отбирать доклады в программу. Поэтому, во-первых, не стоит затягивать с заявками, если не хотите попасть в повышенную конкуренцию среди докладчиков после дедлайна. Во-вторых, можно планировать посещение конференции в качестве слушателя.

Александр Алексейцев расскажет о применении машинного обучения для предсказания продаж интернет-магазина OZON. В первой секции про коммерческое использование ML уже принято два доклада. Представит подход к оптимизации цен с помощью моделей предсказания спроса, покажет, как применить теорию вероятностей в процессах пополнения склада, и опишет цикл разработки ML решений для продакшена. RU. Первая версия была представлена на HighLoad++ и вызвала живой интерес. 

Задача очень интересна тем, что это дорогое удовольствие, которое почти не дает обратной связи — CTR не посчитаешь. Александра Ломакина из Joom расскажет, как удалось успешно решить задачу оптимизации тв-рекламы. Но кое-что измерить все-таки можно, а чем и как это потом использовать узнаем в сентябре.

Гвидо планирует рассказать о подходе к регуляризации моделей, робастном относительно входных данных, а мы надеемся вытащить из него побольше практики.  В теме компьютерного зрения пока у нас принят только немного академический доклад Гвидо Монтуфара.

И это тот редкий случай, когда уместен обзорный доклад, потому что Григорий обязательно наполнит его практическими советами, основанными на его колоссальном опыте. Кроме того, мы приняли в программу Григория Сапунова с докладом о последних подвижках в архитектуре нейронных сетей.

Специально для него мы завели секцию «Прочее», потому что эта тема нам кажется очень нужной. А еще договорились с Эдуардом Тянтовым о докладе про менеджмент проектов с машинным обучением. Если кто-то и может рассказать, какая специфика у проектов с большим количеством машинного обучения, как развивать продукт и вести в продакшен, как продавать людям и разработчикам, то вероятно это Эдуард с бэкграндом запуска Artisto и руководства антиспамом и группами по машинному обучению в Mail.ru.

Call for Ideas

Если вы дочитали до сюда, то, во-первых, спасибо, ждем вас на конференции. Во-вторых, если чего-то не хватило, то напишите в комментариях. Расскажите, какие темы лично вам актуальнее всего, подскажите, какой вид доклада нужен, какой подход просто нельзя пропустить ( в любом смысле, и в том, что пропустить в программу). Назовите имена, кого бы вы хотели услышать на такой конференции — высока вероятность, что мы уже связались с этим специалистом, но если нет, то обязательно сделаем это. В Программном комитете такие же люди — у нас много опыта, но мы все равно могли что-то забыть.

Подавайте доклады, регистрируйтесь, и увидимся 16 сентября. UseData Conf — конференция для тех, кто решает практические задачи с помощью методов машинного обучения.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть