Professional Cloud DevOps Engineer
Guia do exame de certificação
Professional Cloud DevOps Engineers implementam processos ao longo do ciclo de vida de desenvolvimento de sistemas usando ferramentas e metodologias recomendadas pelo Google. Eles criam e implantam pipelines de entrega de software e infraestrutura, otimizam e mantêm sistemas e serviços de produção e equilibram a confiabilidade do serviço com a velocidade de entrega.
Seção 1: inicializar de uma organização do Google Cloud para DevOps (cerca de 17% do exame)
1.1 Projetar a hierarquia de recursos geral de uma organização. As considerações incluem:
● Projetos e pastas
● Rede compartilhada
● Papéis do Identity and Access Management (IAM) e políticas no nível da organização
● Como criar e gerenciar contas de serviço
1.2 Como gerenciar infraestrutura como código As considerações incluem:
● infraestrutura como ferramentas de código (por exemplo, Cloud Foundation Toolkit, Config Connector, Terraform, Helm)
● Como fazer alterações na infraestrutura usando as práticas recomendadas e a infraestrutura do Google como blueprints de código
● Arquitetura imutável
1.3 Projetar uma pilha de arquitetura de CI/CD em ambientes híbridos, de várias nuvens e do Google Cloud. As considerações incluem:
● CI com o Cloud Build
● CD com o Google Cloud Deploy
● Ferramentas de terceiros amplamente usadas (por exemplo, Jenkins, Git, ArgoCD, Packer)
● Segurança das ferramentas de CI/CD
1.4 Gerenciar vários ambientes (por exemplo, preparação, produção). As considerações incluem:
● Como determinar o número e a finalidade dos ambientes
● Como criar ambientes de forma dinâmica para cada ramificação de recursos com o Google Kubernetes Engine (GKE) e o Terraform
● Gerenciamento de configurações
Seção 2: criar e implementar pipelines de CI/CD para um serviço (cerca de 23% do exame)
2.1 Como projetar e gerenciar pipelines de CI/CD. As considerações incluem:
● Gerenciamento de artefatos com o Artifact Registry
● Implantação em ambientes híbridos e de várias nuvens (por exemplo, Anthos, GKE)
● Acionadores de pipelines de CI/CD
● Testar uma nova versão do aplicativo no pipeline
● Configurar processos de implantação (por exemplo, fluxos de aprovação)
● CI/CD de aplicativos sem servidor
2.2 Como implementar pipelines de CI/CD. As considerações incluem:
● Auditoria e rastreamento de implantações (por exemplo, Artifact Registry, Cloud Build, Google Cloud Deploy e Registros de auditoria do Cloud)
● Estratégias de implantação (por exemplo, canário, azul/verde, contínua, divisão de tráfego)
● Estratégias de reversão
● Solução de problemas de implantação
2.3 Gerenciar configurações e secrets de CI/CD. As considerações incluem:
● Métodos de armazenamento seguro e serviços de rotação de chaves (por exemplo, Cloud Key Management Service, Secret Manager)
● Gerenciamento de secrets
● Injeção de secret de build e ambiente de execução
2.4 Proteger o pipeline de implantação de CI/CD. As considerações incluem:
● Análise de vulnerabilidade com o Artifact Registry
● Autorização binária
● Políticas do IAM por ambiente
Seção 3: aplicar práticas de engenharia de confiabilidade do site a um serviço (cerca de 23% do exame)
3.1 Balancear a mudança, velocidade e confiabilidade do serviço. As considerações incluem:
● Descobrir SLIs (por exemplo, disponibilidade, latência)
● Definir SLOs e entender SLAs
● Margens de erro
● Automatizar o trabalho
● Custo de oportunidade de risco e confiabilidade (por exemplo, número de "noves")
3.2 Gerenciar o ciclo de vida do serviço. As considerações incluem:
● Gerenciamento de serviços (por exemplo, introdução de um novo serviço usando uma lista de verificação de integração pré-serviço, plano de lançamento ou plano de implantação, implantação, manutenção e desativação)
● Planejamento de capacidade (por exemplo, gerenciamento de cotas e limites)
● Escalonamento automático usando grupos gerenciados de instâncias, Cloud Run, Cloud Functions ou GKE
● Implementar ciclos de feedback para melhorar um serviço
3.3 Garantir uma comunicação e colaboração saudável para operações. As considerações incluem:
● Prevenir o esgotamento (por exemplo, configurar processos automáticos para prevenir o esgotamento)
● Fomentação de uma cultura de aprendizado e sem culpas
● Estabelecer a propriedade conjunta de serviços para eliminar silos de equipe
3.4 Minimizar o impacto de incidentes para os usuários. As considerações incluem:
● Comunicação durante um incidente
● Redução/redirecionamento do tráfego
● Adicionar capacidade
3.5 Realização de um post mortem. As considerações incluem:
● Documentar as causas raiz
● Criar e priorizar ações necessárias
● Comunicar o post mortem às partes interessadas
Seção 4: implementar estratégias de monitoramento do serviço (cerca de 21% do exame)
4.1 Gerenciar registros. As considerações incluem:
● Coletar registros estruturados e não estruturados no Compute Engine, GKE e em plataformas sem servidor que usam o Cloud Logging
● Configurar o agente do Cloud Logging
● Coletar registros de fora do Google Cloud
● Enviar os registros do aplicativo diretamente para a API Cloud Logging
● Níveis de registro (por exemplo, informações, erro, depuração, fatal)
● Otimização de registros (por exemplo, geração de registros de várias linhas, exceções, tamanho, custo)
4.2 Gerenciar métricas com o Cloud Monitoring. As considerações incluem:
● Coletar e analisar métricas de aplicativos e plataformas
● Coletar métricas de rede e de malha de serviço
● Usar o Metrics Explorer para análise de métrica ad hoc
● Criar métricas personalizadas a partir de registros
4.3 Gerenciar painéis e alertas no Cloud Monitoring. As considerações incluem:
● Criação de um painel de monitoramento
● Filtrar e compartilhar painéis
● Configuração de alertas
● Definir políticas de alertas com base em SLOs e SLIs
● Automatizar a definição da política de alertas usando o Terraform
● Usar o Google Cloud Managed Service para Prometheus para coletar métricas e configurar o monitoramento e os alertas
4.4 Gerenciar a plataforma do Cloud Logging. As considerações incluem:
● Ativar os registros de acesso a dados (por exemplo, Registros de auditoria do Cloud)
● Ativar os registros de fluxo da VPC
● Visualização de registros no Console do Google Cloud
● Usar filtros de registro básicos e avançados
● Exclusão de registros e exportação de registros
● Exportação no nível do projeto e exportação no nível da organização
● Gerenciar e visualizar exportações de registros
● Enviar registros para uma plataforma de registro externa
● Filtragem e edição de dados confidenciais (por exemplo, informações de identificação pessoal [PII] e informações protegidas de saúde [PHI]);
4.5 Implementar controles de acesso de geração de registros e monitoramento. As considerações incluem:
● Restringir o acesso a registros de auditoria e registros de fluxo de VPC com o Cloud Logging
● Restringir a configuração de exportação com o Cloud Logging
● Permitir a gravação de métricas e registros com o Cloud Monitoring
Seção 5: otimizar o desempenho do serviço (cerca de 16% do exame)
5.1 Identificar problemas de desempenho no serviço. As considerações incluem:
● Utilizar o pacote de operações do Google Cloud para identificar o uso de recursos de nuvem
● Interpretar a telemetria da malha de serviço
● Solução de problemas com recursos de computação
● Solução de problemas de tempo de execução e implantação com aplicativos
● Solução de problemas de rede (por exemplo, registros de fluxo de VPC, registros do firewall, latência, detalhes da rede)
5.2 Implementar ferramentas de depuração no Google Cloud. As considerações incluem:
● Instrumentação do aplicativo
● Cloud Logging
● Cloud Trace
● Error Reporting
● Cloud Profiler
● Cloud Monitoring
5.3 Otimizar a utilização e os custos de recursos. As considerações incluem:
● Máquinas virtuais (VMs) preemptivas/do Spot
● Descontos por compromisso de uso (por exemplo, flexibilidade, com base em recursos)
● Descontos por uso prolongado
● Níveis de rede
● Recomendações de dimensionamento