Obtén un cupón de certificación, acceso a todas las capacitaciones on demand y USD 500 en créditos de Google Cloud a través de Innovators Plus. Explora todos los beneficios.

Professional Data Engineer

Guía para el examen de certificación

Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios. Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.


Sección 1: Diseño de sistemas de procesamiento de datos (aprox. el 22% del examen)

1.1 Diseño para la seguridad y el cumplimiento Se incluyen las siguientes consideraciones: 

    ●  Identity and Access Management (p. ej., Cloud IAM y políticas de la organización)

    ●  Seguridad de los datos (administración de claves y encriptación)

    ●  Privacidad (p. ej., información de identificación personal y la API de Cloud Data Loss Prevention)

    ●  Consideraciones regionales (soberanía de los datos) para el acceso y el almacenamiento de datos

    ●  Cumplimiento de leyes y reglamentaciones

1.2 Diseño para la confiabilidad y la fidelidad. Se incluyen las siguientes consideraciones:

    ●  Preparación y limpieza de los datos (p. ej., Dataprep, Dataflow y Cloud Data Fusion)

    ●  Supervisión y organización de canalizaciones de datos

    ●  Recuperación ante desastres y tolerancia a errores

    ●  Toma de decisiones relacionadas con el cumplimiento y la disponibilidad de ACID (atomicidad, coherencia, aislamiento y durabilidad)

    ●  Validación de datos

1.3 Diseño para flexibilidad y portabilidad. Se incluyen las siguientes consideraciones:

    ●  Asignación de los requisitos comerciales actuales y futuros a la arquitectura

    ●  Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos y múltiples nubes)

    ●  Descubrimiento, categorización y almacenamiento en etapa intermedia de datos (administración de datos)

1.4 Diseño de migración de datos Se incluyen las siguientes consideraciones:

    ●  Análisis de las necesidades, los usuarios, los procesos y las tecnologías actuales de la parte interesada, y creación de un plan para llegar al estado deseado

    ●  Planificación de la migración a Google Cloud (p. ej., Servicio de transferencia de datos de BigQuery, Database Migration Service, Transfer Appliance, herramientas de redes de Google Cloud y Datastream)

    ●  Diseño de la estrategia de validación de migración

    ●  Diseño de la arquitectura del proyecto, el conjunto de datos y las tablas para garantizar una administración de datos adecuada 

Sección 2: Transferencia y procesamiento de datos (aprox. el 25% del examen)

2.1 Planificación de las canalizaciones de datos Se incluyen las siguientes consideraciones:

    ●  Definición de fuentes y receptores de datos

    ●  Definición de la lógica de transformación de los datos

    ●  Aspectos básicos de las herramientas de redes

    ●  Encriptación de datos

2.2 Compilación de las canalizaciones Se incluyen las siguientes consideraciones:

    ●  Limpieza de datos

    ●  Identificación de los servicios (p. ej., Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, el ecosistema de Hadoop y Apache Kafka)

    ●  Transformaciones

        ○  Batch

        ○  Transmisión (p. ej., renderización en ventanas, datos tardíos)

        ○  Lenguaje

        ○  Transferencia de datos ad hoc (canalización automatizada o única)

    ●  Importación y adquisición de datos

    ●  Integración en fuentes de datos nuevas 

2.3 Implementación y puesta en funcionamiento las canalizaciones. Se incluyen las siguientes consideraciones:

    ●  Automatización y organización de trabajos (p. ej., Cloud Composer y Workflows)

    ●  CI/CD (integración continua e implementación continua)

Sección 3: Almacenamiento de los datos (aprox. el 20% del examen)

3.1 Selección de sistemas de almacenamiento Se incluyen las siguientes consideraciones:

    ●  Análisis de patrones de acceso a datos

    ●  Elección de servicios administrados (p. ej., Bigtable, Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)

    ●  Planificación de los costos y el rendimiento del almacenamiento

    ●  Administración del ciclo de vida de los datos

3.2 Planificación del uso de un almacén de datos. Se incluyen las siguientes consideraciones:

    ●  Diseño del modelo de datos

    ●  Decisión del grado de normalización de datos

    ●  Asignación de los requisitos comerciales

    ●  Definición de la arquitectura para respaldar los patrones de acceso a los datos

3.3 Uso de un data lake. Se incluyen las siguientes consideraciones:

    ●  Administración del lake (configuración de descubrimiento de datos, acceso y controles de costos)

    ●  Procesamiento de datos

    ●  Supervisión del data lake

3.4 Diseño de una malla de datos Se incluyen las siguientes consideraciones:

    ●  Creación de una malla de datos basada en requisitos a través de herramientas de Google Cloud (p. ej., Dataplex, Data Catalog, BigQuery, Cloud Storage)

    ●  Segmentación de datos para el uso distribuido de equipos

    ●  Compilación de un modelo de administración federado para sistemas de datos distribuidos

Sección 4: Preparación y uso de los datos para el análisis (aprox. el 15% del examen)

4.1 Preparación de los datos para su visualización Se incluyen las siguientes consideraciones:

    ●  Conexión con las herramientas

    ●  Precálculo de campos

    ●  Vistas materializadas de BigQuery (lógica de vistas)

    ●  Determinación del nivel de detalle de los datos de tiempo

    ●  Solución de problemas de consultas con bajo rendimiento

    ●  Identity and Access Management (IAM) y Cloud Data Loss Prevention (Cloud DLP)

4.2 Uso compartido de datos. Se incluyen las siguientes consideraciones:

    ●  Definición de reglas para compartir datos

    ●  Publicación de conjuntos de datos

    ●  Publicación de informes y visualizaciones

    ●  Analytics Hub

4.3 Exploración y análisis de datos Se incluyen las siguientes consideraciones:

    ●  Preparación de datos para la ingeniería de atributos (entrenamiento y entrega de modelos de aprendizaje automático)

    ●  Llevar a cabo el descubrimiento de datos

Sección 5: Mantenimiento y automatización de las cargas de trabajo de datos (aprox. el 18% del examen)

5.1 Optimización de recursos. Se incluyen las siguientes consideraciones:

    ●  Minimizar los costos por la necesidad empresarial de datos

    ●  Garantizar que haya suficientes recursos disponibles para los procesos de datos fundamentales de la empresa

    ●  Decidir entre clústeres de datos persistentes o basados en trabajos (p. ej., Dataproc)

5.2 Diseño de automatización y repetibilidad. Se incluyen las siguientes consideraciones:

    ●  Creación de grafos acíclicos dirigidos (DAG) para Cloud Composer

    ●  Programación de trabajos repetibles 

5.3 Organización de las cargas de trabajo según los requisitos empresariales Se incluyen las siguientes consideraciones:

    ●  Precios de ranuras flexibles, según demanda y de tarifa plana (índice sobre la flexibilidad o capacidad fija)

    ●  Trabajos de consulta interactiva o por lotes

5.4 Procesos de supervisión y solución de problemas. Se incluyen las siguientes consideraciones:

    ●  Observabilidad de procesos de datos (p. ej., Cloud Monitoring, Cloud Logging y el panel de administración de BigQuery)

    ●  Supervisión del uso planificado

    ●  Solución de problemas de mensajes de error, problemas de facturación y cuotas

    ●  Administración de cargas de trabajo, como trabajos, consultas y capacidad de procesamiento (reservas)

5.5 Reconocimiento de las fallas y mitigación del impacto Se incluyen las siguientes consideraciones:

    ●  Diseño del sistema para la tolerancia a errores y administración de reinicios

    ●  Ejecución de trabajos en varias regiones o zonas

    ●  Preparación para la corrupción de datos y los datos faltantes

    ●  Replicación de datos y conmutación por error (p. ej., Cloud SQL y clústeres de Redis)