Доступно

SRE онлайн-интенсив [Slurm] [Слёрм] [Иван Круглов, Павел Селиванов] [2020]

Тема в разделе "Курсы по администрированию", создана пользователем Blink_182, 3 сен 2020.

Цена: 50000р.-92%
Взнос: 4000р.
81%

Основной список: 24 участников

Резервный список: 1 участников

Статус обсуждения:
Комментирование ограничено.
  1. 3 сен 2020
    #1
    Blink_182
    Blink_182 ЧКЧлен клуба

    SRE онлайн-интенсив [Slurm] [Слёрм] [Иван Круглов, Павел Селиванов] [2020]

    SlurmSRE.PNG

    На курсе вы будете:
    Строить

    Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
    микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
    соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.

    Ломать
    Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
    нагрузкой.

    Чинить
    Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.

    Изучать
    Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.

    Требования к участникам:
    - Свободное владение Linux;
    - Любой язык программирования: уровень Junior;
    - GitLab: навыки автоматизации;
    - Prometheus: навыки мониторинга;
    - Kubernetes: навыки работы в кластере.


    Тема №1: Основные принципы и методы SRE
    • Что нужно чтобы стать SRE?
    • DevOps vs SRE
    • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
    • SLI, SLO и SLA
    • Error budget и его роль в SRE
    Тема №2: Дизайн распределенных систем
    • Архитектура и функционал приложения
    • Non-Abstract Large System Design
    • Operability / Design for failure
    • gRPC или REST
    • Версионирование и обратная совместимость
    Тема №3: Как принимают проект SRE
    • Лучшие практики от SRE
    • Чек-лист приема проекта
    • Логирование, метрики, трейсинг
    • Забираем CI/CD в свои руки
    Тема №4: Проектирование и запуск распределенной системы
    • Обратное проектирование — как работает система?
    • Согласовываем SLI и SLO
    • Практика capacity planning
    • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
    • Запускаем Prometheus, Grafana, Elastic
    Тема №5: Monitoring, Observability and Alerting
    • Monitoring vs. Observability
    • Настраиваем мониторинг и алертинг с Prometheus
    • Практический мониторинг SLI и SLO
    • Symptoms vs. Causes
    • Black-Box vs. White-Box Monitoring
    • Распределенный мониторинг доступности приложений и серверов
    • 4 золотых сигнала (обнаружение аномалий)
    Тема №6: Практика тестирования надежности систем
    • Работа под давлением
    • Failure-injection
    • Chaos Monkey
    Тема №7: Практика incident response
    • Алгоритм управления стрессом
    • Взаимодействие между участниками инцидента
    • Постмортем
    • Knowledge sharing
    • Формирование культуры
    • Контроль неисправностей
    • Проведение blameless разбора полетов
    Тема №8: Практика управления нагрузкой
    • Балансировка нагрузки
    • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
    • DDoS (создаем нагрузку) + Cascading Failures
    Тема №9: Реагирование на инциденты
    • Разбор полетов
    • Практика On-Call
    • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
    • Протоколы управления инцидентами
    Тема №10: Диагностика и решение проблем
    • Журналирование
    • Отладка
    • Практика анализа и отладки на нашем приложении
    Тема №11: Тестирование надежности систем
    • Нагрузочное тестирование
    • Тестирование конфигураций
    • Тестирование производительности
    • Canary release
    Тема №12: Самостоятельная работа и ревью
    • Реальные кейсы
    • Проверка спикерами

    Продажник: Скрытая ссылка
     
    Последнее редактирование модератором: 29 ноя 2020
    2 пользователям это понравилось.
  2. Последние события

    1. skladchik.com
      Складчина доступна.
      5 янв 2021
    2. skladchik.com
      Взнос составляет 2000р.
      5 янв 2021
    3. skladchik.com
      Складчина активна.
      5 янв 2021
    4. parindmitry
      parindmitry не участвует.
      4 янв 2021

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      5 янв 2021
    2. skladchik.com
      Взнос составляет 2000р.
      5 янв 2021
    3. skladchik.com
      Складчина активна.
      5 янв 2021
    4. skladchik.com
      Сбор взносов начинается 05.01.2021.
      29 дек 2020
Статус обсуждения:
Комментирование ограничено.

Поделиться этой страницей