Etapa
5
Site Reliability Engineering: Measuring and Managing Reliability
Neste curso, preparamos os alunos para quantificar a confiabilidade dos aplicativos que eles criam no Google Cloud Platform, avaliar os riscos para a confiabilidade desses aplicativos e usar esses dados para guiar a tomada de decisões ao priorizar o trabalho de engenharia.

Objetivos:

Neste curso, os participantes aprendem:

  • Como encontrar sistematicamente as medidas de confiabilidade certas e as metas certas para essas medidas
  • Como usar os conceitos de objetivos de nível de serviço (SLOs, na sigla em inglês), indicadores de nível de serviço (SLIs, na sigla em inglês) e orçamentos de erro para estruturar e quantificar essas medidas e metas
  • Definição dos sistemas de medição e os processos operacionais necessários para gerenciar os SLOs

Duração

Sob demanda: 19 horas

Método de realização

Treinamento no seu ritmo, on-line

Público

Esta aula destina-se principalmente aos seguintes participantes:

  • Especialistas em DevOps
  • Desenvolvedores de software
  • Gerentes de produto e proprietários de aplicativos
  • Responsáveis pela tomada de decisões em empresas de TI

Pré-requisitos

Para aproveitar ao máximo este curso, os participantes precisam cumprir os seguintes critérios:

  • Ter familiaridade com o ciclo de desenvolvimento de aplicativos em nuvem
  • Ter familiaridade com o gerenciamento de respostas a interrupções

Resumo do curso

  • Entender a diferença entre as equipes de DevOps e SRE em uma organização
  • Definir SLO, SLI e SLA
  • Entender o valor dos SLOs para uma organização
  • Entender a abordagem de SRE para escolher metas de confiabilidade
  • Definir métricas quantificáveis de confiabilidade do serviço e satisfação do usuário
  • Definir metas mensuráveis que sejam confiáveis "o suficiente"
  • Entender e aplicar o conceito de orçamento de erro
  • Explorar as maneiras com que as equipes de operações podem tornar um serviço mais confiável
  • Entender quais tipos de métricas de monitoramento são bons indicadores de nível de serviço
  • Explorar estratégias de medição diferentes
  • Estruturar uma especificação de SLI corretamente
  • Gerenciar o número e a complexidade dos SLIs
  • Definir a meta inicial do SLO para um novo SLI
  • Refinar uma especificação de SLI em uma implementação escolhendo métodos de medição, limites e critérios de sucesso
  • Analisar os riscos a que os SLOs são expostos em vários tipos de interrupções
  • Usar essa análise para priorizar o trabalho em melhorias de confiabilidade
  • Documentar corretamente os SLOs e as responsabilidades em falhas nos SLOs
  • Criar uma política de orçamento de erro implementável com sucesso