Professional Data Engineer

Guía para el examen de certificación

Un Professional Data Engineer hace que los datos sean útiles y valiosos para otros mediante la recopilación, transformación y publicación de datos. Esta persona evalúa y selecciona productos y servicios para cumplir con los requisitos comerciales y regulatorios. Un Professional Data Engineer crea y administra sistemas sólidos de procesamiento de datos. Esto incluye la capacidad de diseñar, compilar, implementar, supervisar, mantener y proteger las cargas de trabajo de procesamiento de datos.

Registrarse Registrarse

Sección 1: Diseño de sistemas de procesamiento de datos (aprox. el 22% del examen)

1.1 Diseño para la seguridad y el cumplimiento Se incluyen las siguientes consideraciones:

● Identity and Access Management (p. ej., Cloud IAM y políticas de la organización)

● Seguridad de los datos (administración de claves y encriptación)

● Privacidad (p. ej., información de identificación personal y la API de Cloud Data Loss Prevention)

● Consideraciones regionales (soberanía de los datos) para el acceso y el almacenamiento de datos

● Cumplimiento de leyes y reglamentaciones

1.2 Diseño para la confiabilidad y la fidelidad. Se incluyen las siguientes consideraciones:

● Preparación y limpieza de los datos (p. ej., Dataprep, Dataflow y Cloud Data Fusion)

● Supervisión y organización de canalizaciones de datos

● Recuperación ante desastres y tolerancia a errores

● Toma de decisiones relacionadas con el cumplimiento y la disponibilidad de ACID (atomicidad, coherencia, aislamiento y durabilidad)

● Validación de datos

1.3 Diseño para flexibilidad y portabilidad. Se incluyen las siguientes consideraciones:

● Asignación de los requisitos comerciales actuales y futuros a la arquitectura

● Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos y múltiples nubes)

● Descubrimiento, categorización y almacenamiento en etapa intermedia de datos (administración de datos)

1.4 Diseño de migración de datos Se incluyen las siguientes consideraciones:

● Análisis de las necesidades, los usuarios, los procesos y las tecnologías actuales de la parte interesada, y creación de un plan para llegar al estado deseado

● Planificación de la migración a Google Cloud (p. ej., Servicio de transferencia de datos de BigQuery, Database Migration Service, Transfer Appliance, herramientas de redes de Google Cloud y Datastream)

● Diseño de la estrategia de validación de migración

● Diseño de la arquitectura del proyecto, el conjunto de datos y las tablas para garantizar una administración de datos adecuada

Sección 2: Transferencia y procesamiento de datos (aprox. el 25% del examen)

2.1 Planificación de las canalizaciones de datos Se incluyen las siguientes consideraciones:

● Definición de fuentes y receptores de datos

● Definición de la lógica de transformación de los datos

● Aspectos básicos de las herramientas de redes

● Encriptación de datos

2.2 Compilación de las canalizaciones Se incluyen las siguientes consideraciones:

● Limpieza de datos

Identificación de los servicios (p. ej., Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, el ecosistema de Hadoop y Apache Kafka)

● Transformaciones

○ Batch

○ Transmisión (p. ej., renderización en ventanas, datos tardíos)

○ Lenguaje

○ Transferencia de datos ad hoc (canalización automatizada o única)

● Importación y adquisición de datos

● Integración en fuentes de datos nuevas

2.3 Implementación y puesta en funcionamiento las canalizaciones. Se incluyen las siguientes consideraciones:

● Automatización y organización de trabajos (p. ej., Cloud Composer y Workflows)

● CI/CD (integración continua e implementación continua)

Sección 3: Almacenamiento de los datos (aprox. el 20% del examen)

3.1 Selección de sistemas de almacenamiento Se incluyen las siguientes consideraciones:

● Análisis de patrones de acceso a datos

● Elección de servicios administrados (p. ej., Bigtable, Cloud Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)

● Planificación de los costos y el rendimiento del almacenamiento

● Administración del ciclo de vida de los datos

3.2 Planificación del uso de un almacén de datos. Se incluyen las siguientes consideraciones:

● Diseño del modelo de datos

● Decisión del grado de normalización de datos

● Asignación de los requisitos comerciales

● Definición de la arquitectura para respaldar los patrones de acceso a los datos

3.3 Uso de un data lake. Se incluyen las siguientes consideraciones:

● Administración del lake (configuración de descubrimiento de datos, acceso y controles de costos)

● Procesamiento de datos

● Supervisión del data lake

3.4 Diseño de una malla de datos Se incluyen las siguientes consideraciones:

● Creación de una malla de datos basada en requisitos a través de herramientas de Google Cloud (p. ej., Dataplex, Data Catalog, BigQuery, Cloud Storage)

● Segmentación de datos para el uso distribuido de equipos

● Compilación de un modelo de administración federado para sistemas de datos distribuidos

Sección 4: Preparación y uso de los datos para el análisis (aprox. el 15% del examen)

4.1 Preparación de los datos para su visualización Se incluyen las siguientes consideraciones:

● Conexión con las herramientas

● Precálculo de campos

● Vistas materializadas de BigQuery (lógica de vistas)

● Determinación del nivel de detalle de los datos de tiempo

● Solución de problemas de consultas con bajo rendimiento

● Identity and Access Management (IAM) y Cloud Data Loss Prevention (Cloud DLP)

4.2 Uso compartido de datos. Se incluyen las siguientes consideraciones:

● Definición de reglas para compartir datos

● Publicación de conjuntos de datos

● Publicación de informes y visualizaciones

● Analytics Hub

4.3 Exploración y análisis de datos Se incluyen las siguientes consideraciones:

● Preparación de datos para la ingeniería de atributos (entrenamiento y entrega de modelos de aprendizaje automático)

● Llevar a cabo el descubrimiento de datos

Sección 5: Mantenimiento y automatización de las cargas de trabajo de datos (aprox. el 18% del examen)

5.1 Optimización de recursos. Se incluyen las siguientes consideraciones:

● Minimizar los costos por la necesidad empresarial de datos

● Garantizar que haya suficientes recursos disponibles para los procesos de datos fundamentales de la empresa

● Decidir entre clústeres de datos persistentes o basados en trabajos (p. ej., Dataproc)

5.2 Diseño de automatización y repetibilidad. Se incluyen las siguientes consideraciones:

● Creación de grafos acíclicos dirigidos (DAG) para Cloud Composer

● Programación de trabajos repetibles

5.3 Organización de las cargas de trabajo según los requisitos empresariales Se incluyen las siguientes consideraciones:

● Precios de ranuras flexibles, según demanda y de tarifa plana (índice sobre la flexibilidad o capacidad fija)

● Trabajos de consulta interactiva o por lotes

5.4 Procesos de supervisión y solución de problemas. Se incluyen las siguientes consideraciones:

● Observabilidad de procesos de datos (p. ej., Cloud Monitoring, Cloud Logging y el panel de administración de BigQuery)

● Supervisión del uso planificado

● Solución de problemas de mensajes de error, problemas de facturación y cuotas

● Administración de cargas de trabajo, como trabajos, consultas y capacidad de procesamiento (reservas)

5.5 Reconocimiento de las fallas y mitigación del impacto Se incluyen las siguientes consideraciones:

● Diseño del sistema para la tolerancia a errores y administración de reinicios

● Ejecución de trabajos en varias regiones o zonas

● Preparación para la corrupción de datos y los datos faltantes

● Replicación de datos y conmutación por error (p. ej., Cloud SQL y clústeres de Redis)

Da el siguiente paso

Dinos en qué estás trabajando. Un experto de Google Cloud te ayudará a encontrar la mejor solución.

Comunicarse con Ventas

Da el siguiente paso

Dinos en qué estás trabajando. Un experto de Google Cloud te ayudará a encontrar la mejor solución.

Comunicarse con Ventas

Trabaja con un socio confiable
Buscar un socio
Comienza a usar Google Cloud
Probar gratis
Sigue explorando
Ver todos los productos

Trabaja con un socio confiable
Buscar un socio
Comienza a usar Google Cloud
Ir a la consola
Sigue explorando
Ver todos los productos