инцидент-менеджмент
-
Хабрахабр
Postmortem, или как разобрать инцидент и ни с кем не разругаться (ну… или почти ни с кем)
Перед тем, как начнем разговор об этой материи, должен предупредить, что не стОит гуглить слово Postmortem, особенно картинки. На рубеже XIX-XX веков это была не самая лицеприятная традиция фотографирования недавно покинувшей этот мир родни. Содержание текста ниже к этой практике никакого отношения не имеет. Что есть Postmortem в епархии информационных технологий? Перефразируя Толкиена, рассказы о том, как мы добились успешного…
Читать далее » -
Хабрахабр
Как мы работаем с мониторингом и чем он нам помогает
В одном из предыдущих постов мой коллега Юрий рассказывал об устройстве нашего мониторинга. А сегодня я хочу поведать о том, как мы потребляем данные из мониторинга, как используем их в нашей повседневной работе и как изменилась наша жизнь за последнее время. Меня зовут Андрей, советую вам заварить чаек и желаю хорошего прочтения. Для ленивых или занятых — переходите сразу на…
Читать далее » -
Хабрахабр
[Перевод] Slack для автоматического управления инцидентами
Инциденты — это непредвиденные события, которые нарушают нормальную работу. Они неизбежны в сложных системах, которые должны работать непрерывно, поэтому так важно подготовиться к ним и научить людей своевременно и организованно на них реагировать. Конечно, каждый инцидент уникален, но у нас есть единая процедура обнаружения, эскалации, управления и разрешения. В Airbnb используется сервис-ориентированная инфраструктура, состоящая из множества взаимосвязанных сервисов, которыми управляют небольшие…
Читать далее » -
Хабрахабр
Как мы теперь реагируем на аварии на проде (и пара примеров)
Когда отлетает сертификат. 16:45: выкатываем изменение на один из проектов, добавился новый компонент. Автотесты видят нормальные 200-е ответы страниц, компонент проверяется вручную на страницах сайта.17:41: QA сообщают, что часть автотестов главной страницы не отработана. На главной какой-то другой контент, а не главная.17:42: аварийный слак-бот Валентин маршрутизирует инцидент, определяет команду, которая релизила новое обновление, создаёт конференц-кол и вызванивает каждого.17:47: команда принимает…
Читать далее » -
Хабрахабр
Как и зачем выстраивать коммуникации с пользователями
Пользователи всегда узнают о проблеме. И будет лучше, если от вас. Потому что, как сказал Чак Паланик: «То, что мы не понимаем, мы можем понимать, как нам угодно». Если мы получаем обрывки информации о какой-то недоступности, мы трактуем ее как угодно, делая выводы, далекие от правды. После чего, понятно, мы уже не доверяем. Если первым придет сосед и скажет, что…
Читать далее » -
Хабрахабр
Как мы строили работу с техническими инцидентами на уровне компании
Пока вы маленький старпап, команда легко справляется со всеми ошибками и сбоями сама. Если вы развиваетесь, и делаете это быстро, неизбежно приходит время, когда разработчиков становится больше, компания — крупнее, а проблемы перестают быть локальными и требуют участия смежных команд для их решения. Так и Skyeng прошел путь от маленького стартапа до известной онлайн-школы. Сейчас на платформе десятки тысяч учеников,…
Читать далее » -
Хабрахабр
Аварии помогают учиться
За 3 последних года в Контуре случилось больше тысячи инцидентов разной степени эпичности. Причины разные: например, 36% вызвано некачественным релизом, а 14% — работами по обслуживанию железа в дата-центре. Откуда статистика? После каждого инцидента пишется отчёт — постмортем. Их пишут дежурные инженеры, которые отреагировали на уведомление об аварии и первыми начали разбираться в ее причинах. Постмортемы анализируются, выявляются и устраняются…
Читать далее » -
Хабрахабр
Анатомия инцидента, или как работать над уменьшением downtime
Для каких-то сервисов на начальном этапе важнее скорость разработки фич, в этот момент и команда не сформирована полностью, и технологии выбираются не особо тщательно. Рано или поздно в любом проекте настает время работать над стабильность/доступностью вашего сервиса. Но допустим, что момент X все-таки настал и вас начало волновать, сколько времени в отчетный период "лежит" ваш сервис. Для других сервисов (чаще…
Читать далее »