Главная » Хабрахабр » С точностью до сотых: топ-10 докладов SmartData 2017

С точностью до сотых: топ-10 докладов SmartData 2017

Надо полагать, что и оценки докладам после прошлогодней конференции они выставляли очень вдумчиво. Зрители конференции SmartData — люди, которые любят работать с данными.

И заодно, чтобы порадовать любителей данных, указали по каждому из десяти докладов все сопутствующие числа: место в топе, точный зрительский рейтинг, количество зрителей. А теперь по этим оценкам мы составили топ-10 видеозаписей.

Так что, пожалуй, не стоит придавать много значения «кто идёт за кем» — важнее, что все эти доклады получили высокие оценки. Вообще говоря, зачастую у соседних позиций в топе рейтинги различаются незначительно. Но с другой стороны, как же это не придавать много внимания числам, когда это так увлекательно!

Neurona: зачем мы научили нейронную сеть писать стихи в духе Курта Кобейна?

Спикер: Иван Ямщиков
Место: 1
Рейтинг: 4,51 ± 0,08
Число зрителей: ~200
Презентация доклада

Это доступное выступление, не требующее от зрителя гигантской подготовки — но в то же время это и не просто стотысячное объяснение «как работают нейронные сети». Явным лидером конференции стал закрывающий кейноут от создателя проектов «Нейронная Оборона» и Neurona. В общем, стоит ли удивляться, что мы позвали Ивана участвовать и в приближающейся SmartData 2018. Это вроде бы «развлекательный» формат (вряд ли услышанное немедленно скажется на вашем рабочем проекте) — но в долгосрочной перспективе всё это может быть не только очень интересно, но и полезно.

От клика к прогнозу и обратно: Data Science-пайплайны в Одноклассниках

Спикер: Дмитрий Бугайченко
Место: 2
Рейтинг: 4,36 ± 0,08
Число зрителей: ~140
Презентация доклада

Во-первых, это не общее «что может нам дать машинное обучение», а конкретика «как именно мы всё реализуем». А вот тут всё наоборот. В общем, если выступление Ямщикова может заинтересовать даже широкую аудиторию, то здесь интересно будет только лично связанным с машинным обучением, зато они могут многое для себя вынести. И доклад не о ML самом по себе (персонализация новостной ленты приведена просто в качестве примера), а о всём сопутствующем: «что надо сделать, чтобы вся эта ML-красота работала».

CatBoost — следующее поколение градиентного бустинга

Спикер: Анна Вероника Дорогуш
Место: 3
Рейтинг: 4,32 ± 0,12
Число зрителей: ~100
Презентация доклада

Доклад дружелюбен к новичкам и не ныряет сразу в омут с головой, а объясняет сначала базовые вещи. Если градиентный бустинг — не ваша специализация, и тема доклада вызвала ощущение «там небось нюансы для тех, кто уже этим вовсю занимается», развеем опасения. А учитывая, что за прошедший год библиотека CatBoost от Яндекса стала краше и популярнее прежнего, иметь представление о ней полезно, даже если прямо сейчас вам не приходится иметь с ней дело — и доклад как раз может стать хорошим введением.

Назад в будущее современной банковской системы

Спикер: Владимир Красильщик
Место: 4
Рейтинг: 4,31 ± 0,17
Число зрителей: ~80
Презентация доклада

Владимир Красильщик объясняет, что ключевым понятием тут становится битемпоральность: есть «когда событие произошло», а есть «когда система о нём узнала», необходимо работать с обеими этими шкалами и демонстрировать сторонним проверяющим обе сразу. Как быть, если из-за eventually consistency у вас данные квартального отчёта расходятся с ежемесячными, и у аудиторов с регуляторами возникают вопросы? Этим доклад не ограничивается, там ещё много всего — например, думали ли вы, что на IT-конференции услышите фразу «справедливости нет, и не надо пытаться её создать»?

Имя — это фича

Спикер: Виталий Худобахшов
Место: 5
Рейтинг: 4,28 ± 0,08
Число зрителей: ~280
Презентация доклада

С одной стороны, любому разумному человеку совершенно очевидно: нет никаких заметных причин для корреляции имени человека (если речь о популярных русских именах) и того, будет ли этот человек состоять в отношениях. Самое парадоксальное выступление конференции, заставляющее недоумённо чесать в затылке. Точного объяснения нет у него самого, но по-настоящему убедительных возражений тоже ни у кого не нашлось. С другой стороны, Виталий предъявляет данные, показывающие обратное. Можете попробовать поискать сами.

Нет данных? Нет проблем! Deep Learning на CGI

Спикер: Иван Дрокин
Место: 6
Рейтинг: 4,26 ± 0,18
Число зрителей: ~40
Презентация доклада

В итоге хороший дата-сет стал ценнейшим ресурсом. Как известно, для глубинного обучения недостаточно алгоритмов — нужны начальные данные для обучения. Оказывается, не всегда требуется брать «настоящие» данные из реального мира, и при определённых условиях их можно в прямом смысле слова генерировать. Но что делать, если сейчас его у вас нет, а вы не Google и не можете вкладывать гигантские ресурсы? В докладе разобран конкретный подобный случай.

Глубокие свёрточные сети для обнаружения объектов и сегментации изображений

Спикер: Сергей Николенко
Место: 7
Рейтинг: 4,24 ± 0,17
Число зрителей: ~80
Презентация доклада

А если про это в целом всё понимаете, но вот конкретно в подтеме глубоких свёрточных сетей не разбираетесь, тогда можете сразу пропускать вступление и обращать внимание на вторую половину доклада, где переходят именно к convoluted neural networks. Если вы ещё далеки от машинного/глубокого обучения в целом, то могут хорошо подойти первые 20 минут этого доклада: там обстоятельное введение в тему с историческим экскурсом, начинающимся ещё с 50-х.

Hadoop high availability: опыт Badoo

Спикер: Александр Крашенников
Место: 8
Рейтинг: 4,22 ± 0,14
Число зрителей: ~100
Презентация доклада

Когда-то у Badoo были на порядки меньшие объёмы данных и один подход к ним, затем объёмы возросли и потребовались изменения — а при этом надо учитывать, что завтра всё может вырасти ещё сильнее, делая всё «с запасом». Кажется, помимо понятия «большие данные», пригодилось бы ещё «растущие данные», потому что рост диктует свою специфику.

Бонус: немного творчества Василия Ложкина на слайдах. В компании заинтересовались сочетанием «Hadoop» и «реалтайм» ещё тогда, когда между этими двумя словами обычно писали «несовместимо», а теперь рассказали о своём опыте работы с Hadoop и обеспечения в его случае high availability.

Сегментируем 600 миллионов пользователей в режиме реального времени каждый день

Спикер: Артём Маринов
Место: 9
Рейтинг: 4,21 ± 0,09
Число зрителей: ~120
Презентация доклада

Но, во-первых, тут тоже большие масштабы (порядка ста тысяч событий в секунду). Тут проект очень отличается от Badoo: не дейтинг, а DMP (data management platform), где требуется выделять среди аудитории сегменты вроде «домохозяйки с автомобилем старше пяти лет». С помощью каких технологий справляются и как именно их используют? А во-вторых, тут нужно быть ещё более готовым к росту: «среди источников данных — установки пикселя, если вдруг завтра сверхпопулярный сайт поставит к себе ваш пиксель — пойдёт громадный поток, с которым надо будет справиться». Ответы в докладе.

Распределённое ML на больших данных: опыт построения рекомендательной системы в ivi

Спикер: Борис Шминке
Место: 10
Рейтинг: 4,21 ± 0,09
Число зрителей: ~100
Презентация доклада

Когда-то ivi начинали внедрять рекомендации с использования стороннего сервиса, предоставлявшего «recommendations-as-a-service». Наконец, последний доклад — тоже «про инфраструктуру, а не алгоритмы», и тоже на основе опыта крупного продукта. На Хабре компания писала о ней ещё в 2014-м, а из доклада можно узнать об актуальном положении вещей. Затем «выросли» из него и начали делать собственную систему.

Отдельные спикеры из этого топ-10 вернутся с новыми докладами, будут и совершенно новые имена. Если эти доклады заинтересовали, обращаем внимание: этой осенью состоится SmartData 2018. Самую актуальную информацию о программе всегда можно увидеть на сайте, там же можно купить билеты — и их цена постепенно растёт, так что стоит задуматься уже сейчас.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

Китайские ученые разработали практичную перезаписываемую термобумагу

Исследователи из Китая, похоже, подошли вплотную к решению этого вопроса — они разработали «бумагу», писать на которой можно при помощи изменения температуры. Многие годы различные компании и частные лица бьются над проблемой создания альтернативы обычной бумаги. Бумага меняет цвет, так ...

Атомарный CSS — порядок и чистота

С первых строк кода, каждый человек начинает понимать важность правильной его организации и оптимизации рабочего пространства в целом.Не важно о какой отрасли говорить конкретно, но важно понимать что везде где есть код – должны быть правила его создания и хранения. ...