Professional Cloud DevOps Engineer
Guia do exame de certificação
Professional Cloud DevOps Engineers implementam processos ao longo do ciclo de vida de desenvolvimento de sistemas usando ferramentas e metodologias recomendadas pelo Google. Eles criam e implantam pipelines de entrega de software e infraestrutura, otimizam e mantêm sistemas e serviços de produção e equilibram a confiabilidade do serviço com a velocidade de entrega.
Seção 1: inicializar de uma organização do Google Cloud para DevOps (cerca de 17% do exame)
1.1 Projetar a hierarquia de recursos geral de uma organização. Inclui as seguintes considerações:
● Projetos e pastas
● Rede compartilhada
● Papéis do Identity and Access Management (IAM) e políticas no nível da organização
● Como criar e gerenciar contas de serviço
1.2 Como gerenciar infraestrutura como código Inclui as seguintes considerações:
● infraestrutura como ferramentas de código (por exemplo, Cloud Foundation Toolkit, Config Connector, Terraform, Helm)
● Como fazer alterações na infraestrutura usando as práticas recomendadas e a infraestrutura do Google como blueprints de código
● Arquitetura imutável
1.3 Projetar uma pilha de arquitetura de CI/CD em ambientes híbridos, de várias nuvens e do Google Cloud. Inclui as seguintes considerações:
● CI com o Cloud Build
● CD com o Google Cloud Deploy
● Ferramentas de terceiros amplamente usadas (por exemplo, Jenkins, Git, ArgoCD, Packer)
● Segurança das ferramentas de CI/CD
1.4 Gerenciar vários ambientes (por exemplo, preparação, produção). Inclui as seguintes considerações:
● Como determinar o número e a finalidade dos ambientes
● Como criar ambientes de forma dinâmica para cada ramificação de recursos com o Google Kubernetes Engine (GKE) e o Terraform
● Gerenciamento de configurações
Seção 2: criar e implementar pipelines de CI/CD para um serviço (cerca de 23% do exame)
2.1 Como projetar e gerenciar pipelines de CI/CD. Inclui as seguintes considerações:
● Gerenciamento de artefatos com o Artifact Registry
● Implantação em ambientes híbridos e de várias nuvens (por exemplo, Anthos, GKE)
● Acionadores de pipelines de CI/CD
● Testar uma nova versão do aplicativo no pipeline
● Configurar processos de implantação (por exemplo, fluxos de aprovação)
● CI/CD de aplicativos sem servidor
2.2 Como implementar pipelines de CI/CD. Inclui as seguintes considerações:
● Auditoria e rastreamento de implantações (por exemplo, Artifact Registry, Cloud Build, Google Cloud Deploy e Registros de auditoria do Cloud)
● Estratégias de implantação (por exemplo, canário, azul/verde, contínua, divisão de tráfego)
● Estratégias de reversão
● Solução de problemas de implantação
2.3 Gerenciar configurações e secrets de CI/CD. Inclui as seguintes considerações:
● Métodos de armazenamento seguro e serviços de rotação de chaves (por exemplo, Cloud Key Management Service, Secret Manager)
● Gerenciamento de secrets
● Injeção de secret de build e ambiente de execução
2.4 Proteger o pipeline de implantação de CI/CD. Inclui as seguintes considerações:
● Análise de vulnerabilidade com o Artifact Registry
● Autorização binária
● Políticas do IAM por ambiente
Seção 3: aplicar práticas de engenharia de confiabilidade do site a um serviço (cerca de 23% do exame)
3.1 Balancear a mudança, velocidade e confiabilidade do serviço. Inclui as seguintes considerações:
● Descobrir SLIs (por exemplo, disponibilidade, latência)
● Definir SLOs e entender SLAs
● Margens de erro
● Automatizar o trabalho
● Custo de oportunidade de risco e confiabilidade (por exemplo, número de "noves")
3.2 Gerenciar o ciclo de vida do serviço. Inclui as seguintes considerações:
● Gerenciamento de serviços (por exemplo, introdução de um novo serviço usando uma lista de verificação de integração pré-serviço, plano de lançamento ou plano de implantação, implantação, manutenção e desativação)
● Planejamento de capacidade (por exemplo, gerenciamento de cotas e limites)
● Escalonamento automático usando grupos gerenciados de instâncias, Cloud Run, Cloud Functions ou GKE
● Implementar ciclos de feedback para melhorar um serviço
3.3 Garantir uma comunicação e colaboração saudável para operações. As considerações incluem:
● Prevenir o esgotamento (por exemplo, configurar processos automáticos para prevenir o esgotamento)
● Fomentação de uma cultura de aprendizado e sem culpas
● Estabelecer a propriedade conjunta de serviços para eliminar silos de equipe
3.4 Minimizar o impacto de incidentes para os usuários. Inclui as seguintes considerações:
● Comunicação durante um incidente
● Redução/redirecionamento do tráfego
● Adicionar capacidade
3.5 Realização de um post mortem. Inclui as seguintes considerações:
● Documentar as causas raiz
● Criar e priorizar ações necessárias
● Comunicar o post mortem às partes interessadas
Seção 4: implementar estratégias de monitoramento do serviço (cerca de 21% do exame)
4.1 Gerenciar registros. As considerações incluem:
● Coletar registros estruturados e não estruturados no Compute Engine, GKE e em plataformas sem servidor que usam o Cloud Logging
● Configurar o agente do Cloud Logging
● Coletar registros de fora do Google Cloud
Enviar os registros do aplicativo diretamente para a API Cloud Logging
● Níveis de registro (por exemplo, informações, erro, depuração, fatal)
● Otimização de registros (por exemplo, geração de registros de várias linhas, exceções, tamanho, custo)
4.2 Gerenciar métricas com o Cloud Monitoring. Inclui as seguintes considerações:
● Coletar e analisar métricas de aplicativos e plataformas
● Coletar métricas de rede e de malha de serviço
● Usar o Metrics Explorer para análise de métrica ad hoc
● Criar métricas personalizadas a partir de registros
.3 Gerenciar painéis e alertas no Cloud Monitoring. Inclui as seguintes considerações:
● Criação de um painel de monitoramento
● Filtrar e compartilhar painéis
● Configuração de alertas
● Definir políticas de alertas com base em SLOs e SLIs
● Automatizar a definição da política de alertas usando o Terraform
● Usar o Google Cloud Managed Service para Prometheus para coletar métricas e configurar o monitoramento e os alertas
4.4 Gerenciar a plataforma do Cloud Logging. Inclui as seguintes considerações:
● Ativar os registros de acesso a dados (por exemplo, Registros de auditoria do Cloud)
● Ativar os registros de fluxo da VPC
● Visualização de registros no Console do Google Cloud
● Usar filtros de registro básicos e avançados
● Exclusão de registros e exportação de registros
● Exportação no nível do projeto e exportação no nível da organização
● Gerenciar e visualizar exportações de registros
● Enviar registros para uma plataforma de registro externa
● Filtragem e edição de dados confidenciais (por exemplo, informações de identificação pessoal [PII] e informações protegidas de saúde [PHI]);
4.5 Implementar controles de acesso de geração de registros e monitoramento. Inclui as seguintes considerações:
● Restringir o acesso a registros de auditoria e registros de fluxo de VPC com o Cloud Logging
● Restringir a configuração de exportação com o Cloud Logging
● Permitir a gravação de métricas e registros com o Cloud Monitoring
Seção 5: otimizar o desempenho do serviço (cerca de 16% do exame)
5.1 Identificar problemas de desempenho no serviço. Inclui as seguintes considerações:
● Utilizar o pacote de operações do Google Cloud para identificar o uso de recursos de nuvem
● Interpretar a telemetria da malha de serviço
● Solução de problemas com recursos de computação
● Solução de problemas de tempo de execução e implantação com aplicativos
● Solução de problemas de rede (por exemplo, registros de fluxo de VPC, registros do firewall, latência, detalhes da rede)
5.2 Implementar ferramentas de depuração no Google Cloud. Inclui as seguintes considerações:
● Instrumentação do aplicativo
● Cloud Logging
● Cloud Trace
● Error Reporting
● Cloud Profiler
● Cloud Monitoring
5.3 Otimizar a utilização e os custos de recursos. Inclui as seguintes considerações:
● Máquinas virtuais (VMs) preemptivas/do Spot
● Descontos por compromisso de uso (por exemplo, flexibilidade, com base em recursos)
● Descontos por uso prolongado
● Níveis de rede
● Recomendações de dimensionamento