Хабрахабр

Интенсив по Kubernetes: о работе саппортов

Анонс и программа тут. 1-3 февраля пройдёт Слёрм-3, интенсив по Kubernetes.

Заодно будущие участники поймут, чего ждать от поддержки. Сегодня расскажу немного о внутренней кухне: как мы помогаем студентам справляться с практикой и что из этого получается.

Для меня ситуация выглядит, как если бы я заказал в ресторане килограммовый стейк: съел, сколько мог, остальное оставил на тарелке. Я сам 2-3 раза в год прохожу платные курсы, всегда беру варианты с практикой, и очень редко доделываю ее до конца. Но в тех, кто едет на Слёрм, хотелось бы запихнуть всю порцию.

И это привело бы к катастрофе, если бы в аудитории не нашлось инициативных и талантливых парней: «15 минут назад я писал в чат о проблеме, я ее уже решил сам и помог еще пятерым». На первом Слёрме мы отнеслись к практике спокойно, мол, мы даем задания, а участники справляются как могут.

Поэтому на втором Слёрме кроме трех спикеров со студентами работал десяток саппортов: системных администраторов из команды Southbridge.

Откуда проблемы с практикой?

Это было бы очень быстро, очень просто и очень бессмысленно. Сам подход «Do It Yourself». Можно было бы сделать Walkthrough: «скопируйте конфиг, запустите плейбук, вуаля, ваш кластер готов». Мы пошли сложным путем: чтобы выполнить задание, нужно понять тему и вручную поправить конфиги-настройки и т.д.

Если в первый день не развернул кластер, во второй не сможешь накатывать туда приложение. Снежный ком. Все темы и задания связаны друг с другом. Самой важной и сложной темой оказался Ceph.

Жесть и факапы

Тут саппорты легли костьми. Ceph — ключевая и сложная тема, а двигаться без нее дальше нельзя, поэтому массовый затык на Ceph по разрушительности был сравним с факапом.

Все мы человеки, спикеры тоже. Ошибка на слайде. Ошибки на слайдах были, и они означали, что все 87 студентов сейчас напишут в чат, как у них ничего не работает.

Мы купили выделенный канал у провайдера и держали резервный канал от мегафона, но по закону подлости это не спасло. Глюки трансляции. Мы запустили трансляцию на Ютубе, но за это время спикеры с очными студентами убежали вперед, и отставшие онлайн-студенты устроили скандал, вплоть до отключения от занятий. В первый день Слёрма упал крупный магистральный провайдер, через которого проходил канал до сервиса трансляций Facecast. И вся волна возмущения обрушилась на наших саппортов. На следующий день Facecast изменил схему подключения провайдеров, но не у всех пользователей система сразу хорошо заработала.

Лаги второго дня пришлось перетерпеть). (Проблему из-за упавшего провайдера решили: остановили занятия, дождались полной работоспособности и повторили весь пропущенный материал.

Итак, студент просит помощи

Саппорт должен выбрать линию поведения:
— дать студенту самостоятельно позаниматься траблшутингом;
— найти ошибку студента и объяснить ее;
— сделать этап практики за студента.

Есть необнаружимые ошибки: неправильный логин, буква I вместо l (большая i вместо маленькой L), в таком духе.

Невозможно вдумчиво помочь сразу пятерым в условиях цейтнота. Если произошел факап, к саппортам выстраивается очередь.

Саппорты отключались заполночь, а начинали работать часов в 6 утра (благо и саппорты, и студенты разбросаны по разным часовым поясам). А цейтнот был серьёзным: во внутреннем чате техподдержки за день набегало несколько тысяч сообщений.

Да, «Do It Youself» похерен, но зато удалось избежать снежного кома. Поэтому иногда вместо разбора участники получали ответ: «Я все поправил, сейчас ваш кластер работает как надо, двигайтесь дальше».

Маленькие простые радости

Поэтому подвисших вопросов не осталось. Команда саппортов собирала вопросы из чата и специальной формы, сортировала, отвечала, сложные вопросы передавала спикерам.

Поэтому один из саппортов, сидящих в зале, набирал и отправлял в телеграмм команды со слайдов. Выяснилось, что онлайн-участникам неудобно переключаться между трансляцией и консолью, а у нас нет текстового файла с командами, только презентация на ноутбуке спикера.

Благо Southbridge занимается поддержкой инфраструктуры, у нас каждый может помочь. В общем за спиной ярких спикеров стоит десяток работяг, благодаря которым подавляющее большинство участников дошло до конца практики.

Слёрм-3 будет лучше, чем Слёрм-2

То, что на Слёрме-2 делалось стихийно, мы систематизируем и оптимизируем:
— закрепляем за каждым саппортом свою группу, чтобы студенты знали своего саппорта в лицо;
— пишем базу типовых ошибок и решений;
— готовим шорткаты «Если вы не справились с практикой, но хотите двигаться дальше»;
— готовим памятку участника с инструкцией по организации рабочего места и взаимодействию с саппортами.

Слёрм-3: запускаем кластер Kubernetes

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть