Professional Data Engineer
Guía para el examen de certificación
Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios. Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.
Sección 1: Diseño de sistemas de procesamiento de datos (aprox. el 22% del examen)
1.1 Diseño para la seguridad y el cumplimiento Se incluyen las siguientes consideraciones:
● Identity and Access Management (p. ej., Cloud IAM y políticas de la organización)
● Seguridad de los datos (administración de claves y encriptación)
● Privacidad (p. ej., información de identificación personal y la API de Cloud Data Loss Prevention)
● Consideraciones regionales (soberanía de los datos) para el acceso y el almacenamiento de datos
● Cumplimiento de leyes y reglamentaciones
1.2 Diseño para la confiabilidad y la fidelidad. Se incluyen las siguientes consideraciones:
● Preparación y limpieza de los datos (p. ej., Dataprep, Dataflow y Cloud Data Fusion)
● Supervisión y organización de canalizaciones de datos
● Recuperación ante desastres y tolerancia a errores
● Toma de decisiones relacionadas con el cumplimiento y la disponibilidad de ACID (atomicidad, coherencia, aislamiento y durabilidad)
● Validación de datos
1.3 Diseño para flexibilidad y portabilidad. Se incluyen las siguientes consideraciones:
● Asignación de los requisitos comerciales actuales y futuros a la arquitectura
● Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos y múltiples nubes)
● Descubrimiento, categorización y almacenamiento en etapa intermedia de datos (administración de datos)
1.4 Diseño de migración de datos Se incluyen las siguientes consideraciones:
● Análisis de las necesidades, los usuarios, los procesos y las tecnologías actuales de la parte interesada, y creación de un plan para llegar al estado deseado
● Planificación de la migración a Google Cloud (p. ej., Servicio de transferencia de datos de BigQuery, Database Migration Service, Transfer Appliance, herramientas de redes de Google Cloud y Datastream)
● Diseño de la estrategia de validación de migración
● Diseño de la arquitectura del proyecto, el conjunto de datos y las tablas para garantizar una administración de datos adecuada
Sección 2: Transferencia y procesamiento de datos (aprox. el 25% del examen)
2.1 Planificación de las canalizaciones de datos Se incluyen las siguientes consideraciones:
● Definición de fuentes y receptores de datos
● Definición de la lógica de transformación de los datos
● Aspectos básicos de las herramientas de redes
● Encriptación de datos
2.2 Compilación de las canalizaciones Se incluyen las siguientes consideraciones:
● Limpieza de datos
● Identificación de los servicios (p. ej., Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, el ecosistema de Hadoop y Apache Kafka)
● Transformaciones
○ Batch
○ Transmisión (p. ej., renderización en ventanas, datos tardíos)
○ Lenguaje
○ Transferencia de datos ad hoc (canalización automatizada o única)
● Importación y adquisición de datos
● Integración en fuentes de datos nuevas
2.3 Implementación y puesta en funcionamiento las canalizaciones. Se incluyen las siguientes consideraciones:
● Automatización y organización de trabajos (p. ej., Cloud Composer y Workflows)
● CI/CD (integración continua e implementación continua)
Sección 3: Almacenamiento de los datos (aprox. el 20% del examen)
3.1 Selección de sistemas de almacenamiento Se incluyen las siguientes consideraciones:
● Análisis de patrones de acceso a datos
● Elección de servicios administrados (p. ej., Bigtable, Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)
● Planificación de los costos y el rendimiento del almacenamiento
● Administración del ciclo de vida de los datos
3.2 Planificación del uso de un almacén de datos. Se incluyen las siguientes consideraciones:
● Diseño del modelo de datos
● Decisión del grado de normalización de datos
● Asignación de los requisitos comerciales
● Definición de la arquitectura para respaldar los patrones de acceso a los datos
3.3 Uso de un data lake. Se incluyen las siguientes consideraciones:
● Administración del lake (configuración de descubrimiento de datos, acceso y controles de costos)
● Procesamiento de datos
● Supervisión del data lake
3.4 Diseño de una malla de datos Se incluyen las siguientes consideraciones:
● Creación de una malla de datos basada en requisitos a través de herramientas de Google Cloud (p. ej., Dataplex, Data Catalog, BigQuery, Cloud Storage)
● Segmentación de datos para el uso distribuido de equipos
● Compilación de un modelo de administración federado para sistemas de datos distribuidos
Sección 4: Preparación y uso de los datos para el análisis (aprox. el 15% del examen)
4.1 Preparación de los datos para su visualización Se incluyen las siguientes consideraciones:
● Conexión con las herramientas
● Precálculo de campos
● Vistas materializadas de BigQuery (lógica de vistas)
● Determinación del nivel de detalle de los datos de tiempo
● Solución de problemas de consultas con bajo rendimiento
● Identity and Access Management (IAM) y Cloud Data Loss Prevention (Cloud DLP)
4.2 Uso compartido de datos. Se incluyen las siguientes consideraciones:
● Definición de reglas para compartir datos
● Publicación de conjuntos de datos
● Publicación de informes y visualizaciones
● Analytics Hub
4.3 Exploración y análisis de datos Se incluyen las siguientes consideraciones:
● Preparación de datos para la ingeniería de atributos (entrenamiento y entrega de modelos de aprendizaje automático)
● Llevar a cabo el descubrimiento de datos
Sección 5: Mantenimiento y automatización de las cargas de trabajo de datos (aprox. el 18% del examen)
5.1 Optimización de recursos. Se incluyen las siguientes consideraciones:
● Minimizar los costos por la necesidad empresarial de datos
● Garantizar que haya suficientes recursos disponibles para los procesos de datos fundamentales de la empresa
● Decidir entre clústeres de datos persistentes o basados en trabajos (p. ej., Dataproc)
5.2 Diseño de automatización y repetibilidad. Se incluyen las siguientes consideraciones:
● Creación de grafos acíclicos dirigidos (DAG) para Cloud Composer
● Programación de trabajos repetibles
5.3 Organización de las cargas de trabajo según los requisitos empresariales Se incluyen las siguientes consideraciones:
● Precios de ranuras flexibles, según demanda y de tarifa plana (índice sobre la flexibilidad o capacidad fija)
● Trabajos de consulta interactiva o por lotes
5.4 Procesos de supervisión y solución de problemas. Se incluyen las siguientes consideraciones:
● Observabilidad de procesos de datos (p. ej., Cloud Monitoring, Cloud Logging y el panel de administración de BigQuery)
● Supervisión del uso planificado
● Solución de problemas de mensajes de error, problemas de facturación y cuotas
● Administración de cargas de trabajo, como trabajos, consultas y capacidad de procesamiento (reservas)
5.5 Reconocimiento de las fallas y mitigación del impacto Se incluyen las siguientes consideraciones:
● Diseño del sistema para la tolerancia a errores y administración de reinicios
● Ejecución de trabajos en varias regiones o zonas
● Preparación para la corrupción de datos y los datos faltantes
● Replicación de datos y conmutación por error (p. ej., Cloud SQL y clústeres de Redis)