инцидент-менеджмент

  • ХабрахабрФото Postmortem, или как разобрать инцидент и ни с кем не разругаться (ну… или почти ни с кем)

    Postmortem, или как разобрать инцидент и ни с кем не разругаться (ну… или почти ни с кем)

    Перед тем, как начнем разговор об этой материи, должен предупредить, что не стОит гуглить слово Postmortem, особенно картинки. На рубеже XIX-XX веков это была не самая лицеприятная традиция фотографирования недавно покинувшей этот мир родни. Содержание текста ниже к этой практике никакого отношения не имеет. Что есть Postmortem в епархии информационных технологий? Перефразируя Толкиена, рассказы о том, как мы добились успешного…

    Читать далее »
  • ХабрахабрФото Как мы работаем с мониторингом и чем он нам помогает

    Как мы работаем с мониторингом и чем он нам помогает

    В одном из предыдущих постов мой коллега Юрий рассказывал об устройстве нашего мониторинга. А сегодня я хочу поведать о том, как мы потребляем данные из мониторинга, как используем их в нашей повседневной работе и как изменилась наша жизнь за последнее время. Меня зовут Андрей, советую вам заварить чаек и желаю хорошего прочтения.  Для ленивых или занятых — переходите сразу на…

    Читать далее »
  • ХабрахабрФото [Перевод] Slack для автоматического управления инцидентами

    [Перевод] Slack для автоматического управления инцидентами

    Инциденты — это непредвиденные события, которые нарушают нормальную работу. Они неизбежны в сложных системах, которые должны работать непрерывно, поэтому так важно подготовиться к ним и научить людей своевременно и организованно на них реагировать. Конечно, каждый инцидент уникален, но у нас есть единая процедура обнаружения, эскалации, управления и разрешения. В Airbnb используется сервис-ориентированная инфраструктура, состоящая из множества взаимосвязанных сервисов, которыми управляют небольшие…

    Читать далее »
  • ХабрахабрФото Как мы теперь реагируем на аварии на проде (и пара примеров)

    Как мы теперь реагируем на аварии на проде (и пара примеров)

    Когда отлетает сертификат. 16:45: выкатываем изменение на один из проектов, добавился новый компонент. Автотесты видят нормальные 200-е ответы страниц, компонент проверяется вручную на страницах сайта.17:41: QA сообщают, что часть автотестов главной страницы не отработана. На главной какой-то другой контент, а не главная.17:42: аварийный слак-бот Валентин маршрутизирует инцидент, определяет команду, которая релизила новое обновление, создаёт конференц-кол и вызванивает каждого.17:47: команда принимает…

    Читать далее »
  • ХабрахабрФото Как и зачем выстраивать коммуникации с пользователями

    Как и зачем выстраивать коммуникации с пользователями

    Пользователи всегда узнают о проблеме. И будет лучше, если от вас. Потому что, как сказал Чак Паланик: «То, что мы не понимаем, мы можем понимать, как нам угодно». Если мы получаем обрывки информации о какой-то недоступности, мы трактуем ее как угодно, делая выводы, далекие от правды. После чего, понятно, мы уже не доверяем. Если первым придет сосед и скажет, что…

    Читать далее »
  • ХабрахабрФото Как мы строили работу с техническими инцидентами на уровне компании

    Как мы строили работу с техническими инцидентами на уровне компании

    Пока вы маленький старпап, команда легко справляется со всеми ошибками и сбоями сама. Если вы развиваетесь, и делаете это быстро, неизбежно приходит время, когда разработчиков становится больше, компания — крупнее, а проблемы перестают быть локальными и требуют участия смежных команд для их решения. Так и Skyeng прошел путь от маленького стартапа до известной онлайн-школы. Сейчас на платформе десятки тысяч учеников,…

    Читать далее »
  • ХабрахабрФото Аварии помогают учиться

    Аварии помогают учиться

    За 3 последних года в Контуре случилось больше тысячи инцидентов разной степени эпичности. Причины разные: например, 36% вызвано некачественным релизом, а 14% — работами по обслуживанию железа в дата-центре. Откуда статистика? После каждого инцидента пишется отчёт — постмортем. Их пишут дежурные инженеры, которые отреагировали на уведомление об аварии и первыми начали разбираться в ее причинах. Постмортемы анализируются, выявляются и устраняются…

    Читать далее »
  • ХабрахабрФото Анатомия инцидента, или как работать над уменьшением downtime

    Анатомия инцидента, или как работать над уменьшением downtime

    Для каких-то сервисов на начальном этапе важнее скорость разработки фич, в этот момент и команда не сформирована полностью, и технологии выбираются не особо тщательно. Рано или поздно в любом проекте настает время работать над стабильность/доступностью вашего сервиса. Но допустим, что момент X все-таки настал и вас начало волновать, сколько времени в отчетный период "лежит" ваш сервис. Для других сервисов (чаще…

    Читать далее »


Кнопка «Наверх»