Второй блин: анонс SmartData 2018

Andy27.06.2018

0 4 Время чтения: 6 мин.

При подготовке первой нет ни возможности «сделать как раньше», ни зрительского фидбэка, и организаторам приходится делать смелые предположения. Чем первое проведение конференции отличается от второго? Но это значит, что после первого раза непременно появятся новые соображения, которые помогут во второй. Это не значит, что получится плохо.

В прошлом году мы впервые провели конференцию SmartData, а теперь пришло время «второго раза»: анонсируем SmartData 2018, которая состоится 15 октября в Санкт-Петербурге.

Кому стоит на неё идти? Чего ждать от конференции? Рассказываем обо всём под катом.
Что изменилось по сравнению с прошлым годом?

Главное

О формате конференции лучше всего известно Программному комитету — людям, отбирающим доклады и помогающим улучшить их. Поэтому мы расспросили участников ПК и дополнили этот текст их прямой речью. Роман p0b0rchy Поборчий, который и во время подготовки первой SmartData дал нам интервью, снова был разговорчивее всех.

Год назад это было просто «конференцией о данных». Первое заметное отличие новой SmartData в том, что на сайте сразу видно перечисление «для кого эта конференция»: Data Scientist, Data Engineer, Data Architect и Statistician. Что стоит за добавлением конкретных ролей?

В программе были доклады по обоим этим направлениям, но людям было неочевидно. Роман: «В прошлый раз мы получили от зрителей много фидбэка, что непонятно, для кого же эта конференция: для дата-инженера или для дата-сайентиста?

Причём стараемся именно таким его и сделать: чтобы в рамках SmartData получалась и полноценная конференция для инженера, и полноценная конференция для сайентиста. Теперь мы хотим явно обозначить, что мероприятие и для тех, и для других. Чтобы в каждом временном слоте любому из них было что послушать».

Что кроется за этим? Второе, что может броситься в глаза на сайте: если год назад под названием SmartData красовался подзаголовок «О больших и умных данных», то теперь его сменила надпись «Конференция для тех, кто погружён в мир машинного обучения, анализа и обработки данных».

Но конференция совсем не про хайп, она требует погружённости в мир работы с данными. Таня Денисюк (программный координатор): «В первый раз у нас была неопределённость позиционирования, а в описании было хайповое словосочетание «big data», способное привлечь «случайных» людей. Поэтому теперь мы и убрали это словосочетание, и вообще изменили позиционирование, чтобы приходили технически подкованные люди».

А каких ещё изменений можно ждать?

По возможности даже тех, которые не очень часто бывают в России. Роман: «Во-первых, в прошлый раз все доклады были русскоязычными, а теперь хотим привезти и известных зарубежных докладчиков. Здесь рано что-либо обещать, но работа над этим ведётся.

Возможно, в виде интерактивных вещей, которые можно будет потыкать в перерывах. А во-вторых, мы хотим, чтобы на конференции были не только доклады, но и ещё какая-то интересная “магия”, связанная с обработкой данных. А возможно, в виде обсуждений, где участники смогут сами заявлять интересные им темы».

Конкретика

Поскольку до конференции ещё несколько месяцев, о большинстве спикеров и докладов станет известно ближе к делу. Но уже сейчас можем привести примеры, позволяющие получить некоторое представление о программе:

Всё это интересно и с научной точки зрения, и с прикладной. Анализ текстов — область амбициозная и важная: очевидно, что человечество здесь многого ещё не достигло, но прогресс идёт, и его достижения могут принести человечеству большую пользу.

Константин Воронцов — один из самых известных российских специалистов, связанных с машинным обучением. Такая тематика требует спикера соответствующего калибра, и на SmartData он будет. Причём он видит картину сразу с обеих сторон, «академической» и «индустриальной»: Константин одновременно и старший научный сотрудник Вычислительного центра РАН, и эксперт Яндекса.

Кто может знать о распознавании лиц больше других? Тот, кому пользователи ежедневно загружают десятки миллионов фотографий. Александр Тоболь, работающий в Одноклассниках, теперь знает, как эффективно реализовать распознавание лиц даже при больших масштабах и высоких нагрузках. И на SmartData поделится знаниями с другими: что использовать, как оптимизировать, когда дообучать.
Тем, кто был на предыдущей SmartData, не требуется представлять Ивана Ямщикова: его выступление «Зачем мы научили нейросеть писать стихи в стиле Курта Кобейна?» возглавило зрительский рейтинг. А для тех, кого там не было, добавим, что Иван работает в Институте Макса Планка, и его интересуют принципы работы искусственного интеллекта, которые могли бы помочь понять, как работает наш мозг.

Теперь он выступит с совсем другим докладом, и вот как сам Иван его описывает: «Мы поговорим о том, чем отличается использование машинного обучения в суровом мире enterprise от B2C, разберёмся, можно ли строить AI-решения в условиях дефицита данных, и обсудим лучшие практики использования машинного обучения в «боевых» условиях на примерах продуктов ABBYY».

Как в презентации Apple может оказаться логотип Яндекса? Благодаря библиотеке градиентного бустинга CatBoost: когда на кейноуте WWDC 2018 заговорили о машинном обучении, её название попало на один слайд с такими гигантами, как TensorFlow и Caffe.

С тех пор у библиотеки появились и новые возможности, и новые звёзды на GitHub — видимо, снова очень пригодится, что для вопросов спикерам на SmartData предусмотрены специальные дискуссионные зоны.
В прошлом году Анна Вероника Дорогуш из команды CatBoost уже рассказывала на SmartData о проекте, и тогда после доклада её прямо-таки обступили с вопросами.

А также обращаем ваше внимание на то, что сейчас вовсю открыт приём докладов. Так что, если вы работаете с данными и вам есть чем поделиться, не держите в себе и обращайтесь!

А судьи кто?

В этом году в программном комитете SmartData много новых лиц. А раз от этих людей зависит, чего ждать от программы, есть смысл понять, с какой стороны они сами смотрят на задачи обработки данных. Мы попросили участников ПК вкратце рассказать о себе.

Мы (двое-трое одногруппников с Физтеха) делаем либо задачи под заказ, либо свои матмодели, модули, которые потом продаём и внедряем. Антон ZlodeiBaal Мальцев: «Я уже лет 10 занимаюсь computer vision. За 10 лет наши решения оказались внедрены уже очень много где. Что-то среднее между стартапом и разработкой под заказ. Есть также решения с распознаванием товаров на полках, номеров автомобилей, поездов». В первую очередь это различная биометрия, связанная с computer vision: распознавание радужки, вен рук, немного распознавания лиц.

Это связано с данными в том смысле, что облака — это большое количество серверов, они ломаются, бывают неполадки, на каждый сервер нужно развёртывать своё программное обеспечение, и это всё так или иначе упирается в данные. Александр Стерлигов: «Я раньше работал в Яндексе, занимался управлением облаками. Предоставляю инструменты для работы аналитиков и дата-сайентистов». Сейчас я работаю в проекте Joom и отвечаю за всю аналитическую платформу и инфраструктуру: сбор данных, их поступление, обработка.

Помимо этого, аффилирован с такими проектами, как Яндекс.Автопоэт, и поделками в духе «Нейронной Обороны» и Neurona». Алексей Тихонов: «Работаю в Яндексе: в течение пяти лет был в аналитике поиска, сейчас в аналитике дизайна.

Достаточно много времени просидел в обнимку со Spark, потом пытались сделать Mesos-кластер, чтобы планировать задачи Spark, распределяя для них ресурсы. Павел Плотников: «Работаю в Wrike, начинал как автоматизатор в отделе аналитики, потом стал data engineer. А сейчас я называюсь analytics ops, потому что с дата-инженерами разделились на несколько подотделов, и теперь я больше занимаюсь инфраструктурой и инструментами». И заодно делали платформу, помогающую запускать сервисы (наподобие того, что есть в Kubernetes, он тогда ещё не был настолько популярен).

Раньше в Яндексе занимался метриками в A/B-экспериментах, вообще A/B-экспериментами, и сейчас иногда консультирую какие-то внешние компании на эту тему». Никита Поваров: «Я в JetBrains занимаюсь тем, что пытаюсь заменить в IDE эвристики на машинное обучение (там, где это имеет смысл).

А ещё мне кажется, что я научился в первом приближении отличать настоящее от ненастоящего, и мне хочется собрать конференцию, где будет только настоящее, без хайпа, для тех людей, которые что-то реально делают. Роман Поборчий: «Я тоже много лет проработал в Яндексе, всё время был там рядом с людьми, которые делали всякие интересные штуки, связанные с данными, и сам оказывался в это вовлечён. В первый раз это удалось частично, а теперь хочется сделать полностью».

Эти пост с докладом появились благодаря работе Виталия в Одноклассниках, а теперь у него новая основная деятельность: он занимается развитием Data Science-инструментов в JetBrains. А Виталий Худобахшов остался неопрошенным, но его вы и так можете знать по хабрапосту и докладу о том, как от имени человека зависит вероятность состоять в отношениях.

Билеты

С билетами по сравнению с предыдущим годом тоже есть изменения.

Вот что остаётся неизменным: по мере приближения конференции их цена растёт, так что есть смысл покупать как можно раньше (ближайшее повышение цены — уже 1 июля).

Для участников, которые работают в крупной компании и идут на конференцию за её счёт, в целом всё по-прежнему. А вот что меняется: теперь вместо единой для всех цены появились несколько вариантов. А для тех людей, которые идут «на свои», скидка ещё больше. Для малого бизнеса, который острее ощущает стоимость билетов, теперь появилась скидка.

И все пополнения в программе тоже будут появляться там же. Билеты уже поступили в продажу на сайте. Так что, если вы уже решили идти на конференцию — переходите по ссылке сейчас, а если вам для этого нужно больше данных — открывайте её в будущем.

Увидимся на SmartData!