«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля

Лида Шиндлер26.10.2019

0 1 Время чтения: 3 мин.

Анонсируем первый в России практический курс по SRE: Слёрм SRE.

На интенсиве мы будем три дня строить, ломать, чинить и улучшать сайт-агрегатор по продаже билетов в кино.

Мы выбрали агрегатор билетов, потому что у него множество сценариев отказа: наплыв посетителей и DDoS-атаки, падение одного из множества критичных микросервисов (авторизация, резервирование, обработка платежей), недоступность одного из множества кинотеатров (обмен данными о свободных местах и резервировании), и далее по списку.

Мы сформируем концепцию Reliability нашего сайта-агрегатора, которую будем в дальшейшем Engineering, разберем проектирование с точки зрения SRE, подберем метрики, настроим их мониторинг, будем устранять возникающие инциденты, проведем тренинг командной работы с инцидентами в условиях, приближенных к боевым, организуем разбор полетов.

Ведут программу сотрудники Booking.com и Google.
В этот раз удаленного участия не будет: курс построен на личном взаимодействии и на командной работе.

Подробности под катом

Спикеры

Иван Круглов
Principal Developer в Booking.com (Нидерланды)
С момента прихода в Booking.com в 2013 работал над такими инфраструктурными проектами, как распределенная доставка и обработка сообщений, BigData и web-stack, поиск.
Сейчас занимается вопросами построения внутреннего облака и Service Mesh.

Бен Тайлер
Principal Developer в Booking.com (США)
Занимается внутренней разработкой платформы Booking.com.
Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.
Говорит и преподает на русском.

Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.
С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.

Разрабатывал и внедрял ChatOps при автоматизации дата-центров. Эдуард Медведев
CTO в Tungsten Labs (Германия)
Работал инженером в StackStorm, отвечал за ChatOps-функционал платформы. Спикер на российских и международных конференциях.

Программа

Сейчас она выглядит так, к февралю может улучшиться и расшириться. Программа активно дорабатывается.

Тема №1: Основные принципы и методы SRE

Что нужно чтобы стать SRE?
DevOps vs SRE
Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
SLI, SLO и SLA
Error budget и его роль в SRE

Тема №2: Дизайн распределенных систем

Архитектура и функционал приложения
Non-Abstract Large System Design
Operability / Design for failure
gRPC или REST
Версионирование и обратная совместимость

Тема №3: Как принимают проект SRE

Лучшие практики от SRE
Чек-лист приема проекта
Логирование, метрики, трейсинг
Забираем CI/CD в свои руки

Тема №4: Проектирование и запуск распределенной системы

Обратное проектирование — как работает система?
Согласовываем SLI и SLO
Практика capacity planning
Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
Запускаем Prometheus, Grafana, Elastic

Тема №5: Monitoring, Observability and Alerting

Monitoring vs. Observability
Настраиваем мониторинг и алертинг с Prometheus
Практический мониторинг SLI и SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Распределенный мониторинг доступности приложений и серверов
4 золотых сигнала (обнаружение аномалий)

Тема №6: Практика тестирования надежности систем

Работа под давлением
Failure-injection
Chaos Monkey

Тема №7: Практика incident response

Алгоритм управления стрессом
Взаимодействие между участниками инцидента
Постмортем
Knowledge sharing
Формирование культуры
Контроль неисправностей
Проведение blameless разбора полетов

Тема №8: Практика управления нагрузкой

Балансировка нагрузки
Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
DDoS (создаем нагрузку) + Cascading Failures

Тема №9: Реагирование на инциденты

Разбор полетов
Практика On-Call
Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
Протоколы управления инцидентами

Тема №10: Диагностика и решение проблем

Журналирование
Отладка
Практика анализа и отладки на нашем приложении

Тема №11: Тестирование надежности систем

Нагрузочное тестирование
Тестирование конфигураций
Тестирование производительности
Canary release

Тема №12: Самостоятельная работа и ревью

«Надежда — плохая стратегия». Интенсив по SRE в Москве, 3-5 февраля

Спикеры

Программа

Рекомендации и требования к участникам

Добавить комментарий Отменить ответ

Сделано в СССР. Советский истребитель спутников — первым в мире перехватил космический аппарат-мишень

Роботы-покорители Венеры: 40 лет забытому подвигу советской науки

Технологический винтаж: вспоминаем субналадонник Xircom REX 6000. Он умел многое

ИИ и роботы помогут Innolux сократить 10 тыс. рабочих мест

Apple готовит совершенно новые продукты для отслеживания состояния здоровья

Samsung вскоре предложит бюджетный смартфон Galaxy A10e

Enpass 6.6.2.458 (Android)

Star Wars: Галактика героев 0.14.394957 для Android (Android)

Manor Matters 2.2.1 (Android)

Atomic Heart, The Day Before, Witchfire: NVIDIA показала эксклюзивный геймплей игровых новинок с DLSS 3

Нужно ли устанавливать радиаторы на NVMe-накопители?

Sierra Space показала «зонтик» для экспрес-доставки грузов с орбиты в любую точку Земли

Epic Games предложила в суде проект реформы Google Play

На орбиту выведен «Гагаринец» — прототип спутника для рекламы из космоса

Чем уплотнять подвижные узлы?

Sierra Space показала «зонтик» для экспрес-доставки грузов с орбиты в любую точку Земли

Выжимаем максимум из PostgreSQL

Вулкан в Антарктиде каждый день извергает золото стоимостью 6 000 долларов

Epic Games предложила в суде проект реформы Google Play

Апрель 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Спикеры

Программа

Рекомендации и требования к участникам

Похожие публикации

Добавить комментарий Отменить ответ