Хабрахабр

Moscow Data Science Major: анонс и регистрация

Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science Major. 1 сентября Mail. Событие состоит из пяти тематических блоков докладов, одной ML-тренировки и целого зала для нетворкинга и знакомств.

Вход на событие бесплатный, по одобренной регистрации.
Доклады на Moscow Data Science Major пройдут в два потока. Знакомьтесь с программой и регистрируйтесь! В таблице вы найдете сетку с расписанием, а ниже — описания докладов.

Расписание:

Описания докладов:

Расскажу про историю проблемы, зачем, почему, про cocktail party problem, кто как решал, почему это сложно. «Speaker Diarization Problem», Григорий Стерлинг, NeurodataLab LLC
Коротко расскажу про speech processing в целом и про задачу speaker diarization (по записи диалога нужно определить, кто и когда говорил). Закончу тем, что делают, когда видео нет, а есть только звук (диалог по телефону, например), пройдусь по статьями и нашему подходу. Основная часть доклада будет посвящена результатам 2017-2018 годов, например, о статье Google, в которой описано решение задачи для видео (там нейросетка как будто пытается читать по губам).

Ru Group
Сначала будет небольшой экскурс в современные подходы к решению задачи синтеза речи, затем поговорим про вокодеры, а потом сосредоточимся на одном из наиболее интересных из них (как с точки зрения теории, так и практики). «Нейросетевые вокодеры», Сергей Дуканов, Mail.

В частности, покажу, как ббоксы натягиваются на семантическую сегментацию объектов, а также как обучить модель и получить разметку датасета, разметив только несколько сэмплов. «Пицца а-ля semi-supervised», Артур Кузин, Dbrain
На примере контроля продукции в «Додо Пиццы» расскажу о приемах работы с данными при обучении моделей.

Поговорим как об архитектуре, так и об обучении этих систем. «Архитектура OCR и TD в распознавании фотографий печатных документов», Алексей Гончаров и Илья Жариков, Лаборатория машинного интеллекта МФТИ
Доклад описывает структуру OCR (распознавание символов) и TD (детекция окон с текстом), которые наша команда использует в проектах по распознаванию фотографий печатных документов различного типа.

Статьи выбирались по степени полезности для осуществления domain adaptation для изображений: имея одно размеченное множество, как получить/улучшить разметку на другом похожем множестве. «Как делать domain adaptation, и идеи для повышения его качества», Ренат Баширов, Samsung AI
Доклад представляет из себя выжимку идей из пары десятков статей.

Будет:

  • много GAN'ов,
  • несколько архитектур с десятком функций потерь,
  • рассказано про
    • что такого разного можно подавать в функции потерь,
    • перенос стиля,
    • применение domain adaptation для разных задач: классификация, сегментация.

Не надо думать, что ничего не будет понятно, если ты понимаешь, например:

  • что такое функция потерь,
  • как работает backprop,
  • зачем нужен batchnorm и как он работает,
  • какого размера тензор получаются после global average pooling.

«Поиск по товарам — организация работы», Дмитрий Дремов, Анализ чеков
Про задачу, подход к организации работы и результаты.

Сбор, предобработка данных, аналитическая обработка, A/B-тестирование. «Витрины в социальной сети: как и что показывать», Сергей Бойцов, Одноклассники
Пройдём весь путь от пользователя до конкретного элемента в витрине, которую он видит.

Какие традиционные подходы могут помочь в решении этой задачи, какие эвристики хорошо себя показывают и какие открытия для себя мы сделали, занимаясь этим проектом. «Рекомендательные системы для транспортных билетов», Артем Просветов
В докладе расскажем о применении рекомендательных систем в необычной для них области: для продажи транспортных билетов.

«Тюнинг Jupyter Notebook», Александр Лифанов
Как настроить Jupyter Notebook для продуктивной и удобной работы.

Ru Group
Многие привыкли, что эмбединг — это про текст: мы делаем эмбедниг слов, предложений и т.д. «BigArtm — не только для текста», Максим Стаценко, Mail. В своём докладе я хочу показать, что с помощью Python и изобретательности можно использовать подходы тематического моделирования и эмбедингов в задачах, в которых текстов нет совсем, а именно в кластеризации пользователей по источникам заработка и по интересам. В некотором смысле тематическое моделирование — это тоже эмбединг.

Помимо базового PID controller будет пара трюков, которые улучшают его работу в реальной жизни. «PID Controller intro, или Как варить пиво с PyData», Антон Лебедевич
Постепенное введение в самый популярный автоматический регулятор на примере затирания солода для пива, с анимацией и кодом на Python. На практике часто нужна автоматическая регуляция, и почти любая её реализация содержит элементы PID вместе с их недостатками, о которых надо знать и уметь их чинить.

В этом зале вы сможете общаться с коллегами и другими участниками мероприятия в свободном формате. Зона «Кинозал»
Зона нетворкинга и знакомств.

Не забудьте паспорт или водительские права. Для участия необходимо зарегистрироваться.

Москва, м. Сбор участников и регистрация: 10:00 — 11:00.
Начало докладов: 11:00.
Примерное окончание мероприятия: 17:00.
Адрес: г. 39, стр. Аэропорт, Ленинградский пр-т, д. 79.

Ссылку опубликуем накануне мероприятия. Для тех, кто не сможет прийти, будет организована видеотрансляция.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть