Хабрахабр

В магистратуру без экзаменов: новое направление «Большие данные» на олимпиаде «Я — профессионал»

Продолжаем рассказ об олимпиаде для бакалавров, магистров и специалистов «Я — профессионал». Она проводится при поддержке сильнейших вузов. Сегодня мы расскажем о новом соревновательном направлении, которое курирует Университет ИТМО, — «Большие данные».

Генеральный партнер олимпиады «Я — профессионал» по направлениям Университета ИТМО — «Компьютерные науки», «Информационная и кибербезопасность», «Большие данные» — Сбербанк.


Christoph Scholz / Flickr / CC BY-SA

Пара слов об олимпиаде «Я — профессионал»

Олимпиада проводится для студентов самых разных специальностей.

В этом году зарегистрированы 54 направления: есть математика, искусственный интеллект, программная инженерия, интернет вещей, фотоника и многие другие.

Победители получают возможность поступить в российские вузы без экзаменов и пройти стажировку в крупных компаниях-партнерах олимпиады: Яндексе, Сбербанке, MRG и так далее. Зачем участвовать. Там можно будет познакомиться с экспертами индустрии. Студенты, которые покажут хорошие результаты, получат возможность посетить зимние школы.

С 24 ноября по 9 декабря в режиме онлайн состоится отборочный тур. Формат участия. Регистрация — до 22 ноября. В феврале 2019 года начнутся заключительные этапы. Его могут пропустить те, кто прошел не менее двух онлайн-курсов из утвержденного организаторами списка.

Университет ИТМО курирует сразу пять направлений олимпиады. Они пройдут очно в разных университетах страны. Сегодня представим направление «Большие данные». О некоторых из них, в частности, о «Робототехнике», мы рассказывали ранее. Это — новинка олимпиады этого года.

Направление «Большие данные»: что нужно знать

В мире проводится множество мероприятий и семинаров, посвященных Big Data.

Все больше подобных событий проходит и в нашей стране. Стоит упомянуть международные конференции SIGMOD, SIGKDD или ICML. Например, DataFest, Big Data Conference от Rusbase и многочисленные митапы по технологиям управления и анализа Big Data.

Такие как серия конференций YSC (Young Science Conference), лекция Германа Грефа и недавний закрытый воркшоп, прошедший в MRG. Университет ИТМО также участвует в различных мероприятиях и проводит собственные. В Университете ИТМО идет активная работа с применением и развитием технологий Big Data во всех плоскостях. Большие данные занимают важное место в разработке новых IT-систем и решений в других сферах деятельности.

Оно обеспечивает быстрый доступ к данным, оптимизирует процессы их обработки. Например, сотрудники кафедры высокопроизводительных вычислений Университета ИТМО создали семантическое распределенное хранилище данных Exarch. Exarch позволяет в два раза сократить время выполнения простых задач, по сравнению с инструментами вроде HDFS и Cassandra.

Учитывая опыт и научные интересы вуза в области работы с большими данными, мы не могли упустить возможность открыть такое направление в рамках проекта «Я — профессионал». Курирует этот трек олимпиады Александр Валерьевич Бухановский, доктор технических наук, директор мегафакультета трансляционных информационных технологий Университета ИТМО. Сейчас он с командой, в которую входят и аспиранты вуза, занимается подготовкой заданий.

Первое поднаправление связано с математикой и подходами к обработке больших объемов данных. В направление «Большие данные» входит Анализ данных, статистика и машинное обучение плюс Технологии распределенных вычислений и систем. Второе — строится вокруг программирования и высокопроизводительных вычислений, направленных на оптимизацию аналитических процессов.

Речь идет о Java, Scala и Python. Участники будут использовать платформу Яндекс.Контест и самые популярные языки программирования для работы с Big Data.

Python же чаще выступает инструментом в руках тех, кого называют Data Scientist. При этом все указанные языки поддерживаются самым распространенным и популярным на сегодняшний момент решением для обработки больших данных Apache Spark. Java и Scala в большей мере используются специалистами, которых называют Data Engineer, для ETL и ELT и реализации базовых алгоритмов.

Это связано с некоторыми ограничениями площадки Яндекс.Контест — пока нет возможности подключить реальные массивы данных для обработки. Отметим, что на заочном этапе задачи по программированию предлагаться не будут. К очному этапу состязания этот момент будет разрешен.

Подготовка к олимпиаде

Для участников подготовлена специальная программа, которая включает три вебинара по профильному направлению. Лекции читают преподаватели ведущих вузов, объясняя и разбирая примеры олимпиадных заданий.

Вот пример одного из базовых вопросов по большим данным

Для выделения изображений лиц на этих файлах задействован кластер, имеющий 100 вычислительных узлов. Большой массив разных растровых фотоизображений в 64-битном формате bmp равномерно распределен по 1000 независимым узлам хранения в единой локальной сети.

Значит ли это что: При однократном запуске процесса обработки на всех узлах, по сравнению с одним узлом получено ускорение обработки всего в 52 раза.

  • А. Кластер слишком маленький, нужно больше вычислительных узлов, чтобы повысить эффективность;
  • Б. Размеры изображений разные, и из-за этого объективно не удается достичь большей эффективности;
  • А. Коммуникационный канал между хранилищем и кластером слишком слабый;
  • Г. Пока непонятно. Нужно провести серию дополнительных экспериментов в различных конфигурациях.


Ответ: Г. На основе одного измерения причину установить невозможно, так как в зависимости от условий может быть как вариант А, так и В.

Лекция, которую читает Александр Бухановский:

Вторая лекция — о технологических аспектах обработки больших данных. Провел старший научный сотрудник НИИ НКТ Университета ИТМО Александр Вишератин:

В целом для решения заданий олимпиады, необходимо изучить типичные механизмы, лежащие в основе базовых операций обработки Big Data. Речь идет о паттернах во фреймворках Apache Spark и Apache Flink (например, операциях shuffle или broadcast). Неплохо будет изучить работу итеративных алгоритмов, использующихся для машинного обучения на больших данных, таких как Expectation — Maximization. Не помешает и знание структур данных и принципов организации хранения данных, применяемых в современных хранилищах Cassandra или Clickhouse.

Также рекомендуем обратить внимание на курсы от «Яндекса», посвящённые обработке Big Data:

Кстати, прохождение двух из этих курсов позволит миновать отборочный тур по направлению «Большие данные» и попасть сразу на очный этап олимпиады.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть