Acelera tu aprendizaje y crecimiento con Google Cloud Innovators. Unirse ahora

Professional Cloud DevOps Engineer

Guía para el examen de certificación

Un Professional Cloud DevOps Engineer se encarga de organizar operaciones de desarrollo eficientes que combinan la confiabilidad del servicio con la velocidad de entrega. Está capacitado en el uso de Google Cloud para crear canalizaciones de entrega de software, implementar y supervisar servicios, así como abordar incidentes y aprender de ellos.


Sección 1: Aplicación de los principios de la ingeniería de confiabilidad de sitios a un servicio

1.1 Equilibrio entre los cambios, la velocidad y la confiabilidad del servicio:

    a. Descubrir los SLI (p. ej., la disponibilidad y la latencia)

    b. Definir los SLO y comprender los ANS

    c. Aceptar las consecuencias de superar el porcentaje de error aceptable

    d. Crear ciclos de reacción para decidir qué se debe crear más adelante

    e. Eliminar el trabajo repetitivo mediante la automatización

1.2 Administración del ciclo de vida del servicio:

    a. Administrar un servicio (p. ej.: presentar un servicio nuevo, implementarlo, mantenerlo y retirarlo)

    b. Planificar la capacidad (p. ej.: administración de cuotas y límites)

1.3 Garantía de la buena comunicación y colaboración para las operaciones:

    a. Evitar el agotamiento (p. ej.: configurar procesos de automatización para evitar el agotamiento)

    b. Fomentar una cultura de aprendizaje

    c. Fomentar una cultura sin culpabilización

Sección 2: Compilación e implementación de canalizaciones de CI/CD para un servicio

2.1 Diseño de canalizaciones de CI/CD:

    a. Crear y almacenar artefactos inmutables con Artifact Registry

    b. Diseñar estrategias de implementación con Cloud Build y Spinnaker

    c. Diseñar implementaciones de entornos híbridos y de múltiples nubes con Anthos, Spinnaker y Kubernetes

    d. Diseñar estrategias de control de versiones de artefactos con Cloud Build y Artifact Registry

    e. Diseñar activadores de canalizaciones de CI/CD con Cloud Source Repositories, SCM externa y Pub/Sub

    f. Probar una versión nueva con Spinnaker

    g. Configurar procesos de implementación (p. ej.: flujos de aprobación)

2.2 Implementación de canalizaciones de CI/CD:

    a. Implementar la IC con Cloud Build

    b. Implementar la CD con Cloud Build

    c. Implementar herramientas de código abierto (p. ej.: Jenkins, Spinnaker, GitLab y Concourse)

    d. Implementar la auditoría y el seguimiento de las implementaciones (p. ej.: CSR, Artifact Registry, Cloud Build y Registros de auditoría de Cloud)

2.3 Administración de la configuración y los Secrets:

    a. Administrar métodos de almacenamiento seguro

    b. Administrar la rotación secreta y los cambios en la configuración

2.4 Administración de la infraestructura como código:

    a. Terraform

    b. Administrar el control de versiones del código de la infraestructura

    c. Hacer que los cambios en la infraestructura sean más seguros

    d. Crear una arquitectura inmutable

2.5 Implementación de herramientas de CI/CD:

    a. Implementar herramientas centralizadas o múltiples (de un único usuario o multiusuario)

    b. Implementar herramientas de seguridad de CI/CD

2.6 Administración de entornos de desarrollo diferentes (p. ej.: de etapa de pruebas, de producción, etcétera):

    a. Decidir la cantidad de entornos y su propósito

    b. Crear entornos de forma dinámica para cada rama de función con GKE

    c. Administrar entornos locales de desarrollo con Docker, Cloud Code o Skaffold

2.7 Protección de las canalizaciones de implementación:

    a. Análisis de vulnerabilidades con Artifact Registry

    b. Autorización binaria

    c. Proteger las políticas de IAM por entorno

Sección 3: Implementación de estrategias de supervisión de servicios

3.1 Administración de los registros de las aplicaciones:

    a. Recopilar registros de Compute Engine, GKE con Cloud Logging o Fluentd

    b. Recopilar registros estructurados y de terceros con Cloud Logging o Fluentd

    c. Enviar registros de aplicaciones directamente a la API de Cloud Logging

3.2 Administración de las métricas de aplicaciones con Cloud Monitoring:

    a. Recopilar métricas de Compute Engine

    b. Recopilar métricas de GKE o Kubernetes

    c. Usar el Explorador de métricas para un análisis de métricas ad hoc

3.3 Administración de la plataforma de Cloud Monitoring:

    a. Crear un panel de supervisión

    b. Filtrar y compartir paneles

    c. Configurar alertas a terceros en Cloud Monitoring (p. ej., PagerDuty o Slack)

    d. Definir las políticas de alertas basadas en SLI con Cloud Monitoring

    e. Automatizar la definición de la política de alertas con Terraform

    f. Implementar la supervisión y las alertas de SLO con Cloud Monitoring

    g. Comprende las integraciones de Cloud Monitoring (p. ej., Grafana o BigQuery).

    h. Usa herramientas SIEM para analizar los registros de flujo o auditoría (p. ej.: Splunk o Datadog).

    i. Diseñar los alcances de las métricas de Cloud Monitoring

3.4 Administración de la plataforma de Cloud Logging:

    a. Habilita los registros de acceso a los datos (p. ej.: Registros de auditoría de Cloud)

    b. Habilitar los registros de flujo de VPC

    c. Ver registros en Google Cloud Console

    d. Usar filtros de registros básicos o avanzados

    e. Implementar métricas basadas en los registros

    f. Comprender la exclusión y la exportación de registros

    g. Seleccionar las opciones para la exportación de registros

    h. Implementar una exportación a nivel de proyecto o a nivel de la organización

    i. Visualizar los registros de exportación en Cloud Storage y BigQuery

    j. Enviar registros a una plataforma de registros externa

3.5 Implementación de controles de acceso de registro y supervisión:

    a. Configurar la LCA para restringir el acceso a los registros de auditoría con la IAM o Cloud Logging

    b. Configurar la LCA para restringir la configuración de exportación con la IAM o Cloud Logging

    c. Configurar la LCA a fin de permitir la escritura de métricas para obtener métricas personalizadas con la IAM o Cloud Monitoring

Sección 4: Optimización del rendimiento del servicio

4.1 Identificación de los problemas de rendimiento del servicio:

    a. Evaluar y comprender el impacto en los usuarios

    b. Usar Google Cloud's operations suite para identificar la utilización de recursos en la nube

    c. Usar Cloud Trace o Cloud Profiler para generar un perfil con las características de rendimiento

    d. Interpretar la telemetría de la malla de servicios

    e. Solucionar problemas con la imagen o el SO

    f. Soluciona problemas de red (p. ej.: registros de flujo de VPC, registros de firewall, latencia y detalles de la red de vista).

4.2 Depuración del código de la aplicación:

    a. Instrumentación de aplicaciones

    b. Cloud Debugger

    c. Cloud Logging

    d. Cloud Trace

    e. Depuración de aplicaciones distribuidas

    f. Servidor de desarrollo local de App Engine

    g. Error Reporting

    h. Cloud Profiler

4.3 Optimización del uso de recursos:

    a. Identificar los costos de los recursos

    b. Identificar los niveles de uso de los recursos

    c. Desarrollar un plan para optimizar las áreas con mayores costos o menor uso

    d. Administrar VM interrumpibles

    e. Usar los descuentos por compromiso de uso cuando corresponda

    f. Consideraciones del TCO (p. ej., seguridad, registros o herramientas de redes)

    g. Considerar el precio de la red

Sección 5: Administración de los incidentes del servicio

5.1 Coordinación de las funciones e implementación de canales de comunicación durante un incidente en el servicio:

    a. Definir funciones (comandante de incidentes, líder de comunicaciones, líder de operaciones, etcétera)

    b. Controlar las solicitudes para la evaluación del impacto

    c. Proporcionar actualizaciones de estado frecuentes, internas y externas

    d. Registrar los cambios principales en el estado del incidente (p. ej., cuándo se mitigó o cuándo se solucionó)

    e. Establecer canales de comunicación (p. ej., correo electrónico, IRC, Hangouts, Slack o teléfono)

    f. Escalar la delegación y el equipo de respuesta

    g. Evitar el agotamiento

    h. Rotar o entregar funciones

    i. Administrar las relaciones entre las partes interesadas

5.2 Investigación de los síntomas de incidentes que tienen un impacto en los usuarios:

    a. Identificar las posibles causas de la falla de servicio

    b. Evaluar los síntomas frente a las posibles causas; clasificar las probabilidades de la causa según el comportamiento observado

    c. Realizar una investigación para aislar la causa real más probable

    d. Identificar alternativas para mitigar el problema

5.3 Mitigación del impacto del incidente en los usuarios:

    a. Revertir el lanzamiento

    b. Desviar o redireccionar el tráfico

    c. Desactivar el experimento

    d. Agregar capacidad

5.4 Resolución de problemas con las implementaciones (p. ej., Cloud Build o Jenkins):

    a. Cambiar el código o corregir el error

    b. Verificar la corrección

    c. Declarar que se solucionó el problema

5.5 Documentación del problema en un proceso post mortem:

    a. Documentar las causas raíz

    b. Crear y priorizar elementos de acción

    c. Comunicarles el proceso post mortem a las partes interesadas