Professional Data Engineer
Guía actual del examen de certificación de DG
El Professional Data Engineer hace posible la toma de decisiones basada en datos mediante la recopilación, transformación y publicación de estos. El Data Engineer debe ser capaz de diseñar, compilar, poner en funcionamiento, proteger y supervisar los sistemas de procesamiento de datos, con especial énfasis en la seguridad, el cumplimiento, la escalabilidad, la eficiencia, la confiabilidad, la fidelidad, la flexibilidad y la portabilidad. Además, el Data Engineer debe ser capaz de aprovechar, implementar y entrenar constantemente los modelos preexistentes de aprendizaje automático.
Pronto estará disponible el nuevo examen en etapa Beta de Professional Data Engineer. Los candidatos de los exámenes en fase beta deben revisar la guía correspondiente.
Novedades:
La próxima versión beta del examen de Professional Data Engineer refleja las actualizaciones del almacenamiento, el uso compartido y la administración de datos de Google Cloud. El nuevo examen tiene menos énfasis en la puesta en funcionamiento de los modelos de aprendizaje automático y ahora se enfoca más en la función del ingeniero de datos, que consiste en hacer que los datos se puedan usar y sean valiosos.
Sección 1: Diseño de sistemas de procesamiento de datos
1.1 Selección de tecnologías de almacenamiento adecuadas. Se incluyen las siguientes consideraciones:
● Correspondencias entre sistemas de almacenamiento y requisitos comerciales
● Modelado de datos
● Concesiones entre la latencia, la capacidad de procesamiento y las transacciones
● Sistemas distribuidos
● Diseño de esquemas
1.2 Diseño de canalizaciones de datos. Se incluyen las siguientes consideraciones:
● Visualización y publicación de datos (p. ej., BigQuery)
● Lote y transmisión de datos (p. ej., Dataflow, Dataproc, Apache Beam, Apache Spark y el ecosistema de Hadoop, Pub/Sub, Apache Kafka)
● Predicciones en línea (interactivas) frente a predicciones por lotes
● Automatización y organización de trabajos (p. ej., Cloud Composer)
1.3 Diseño de una solución de procesamiento de datos. Se incluyen las siguientes consideraciones:
● Elección de la infraestructura
● Tolerancia a errores y disponibilidad del sistema
● Uso de sistemas distribuidos
● Planificación de la capacidad
● Procesamiento perimetral y nube híbrida
● Opciones de arquitectura (p. ej., agentes de mensajes, colas de mensajes, middleware, arquitectura orientada a servicios y funciones sin servidores)
● Procesamiento de eventos del tipo “al menos una vez”, “en orden” y “exactamente una vez”, entre otros
1.4 Migración del procesamiento y almacenamiento de datos. Se incluyen las siguientes consideraciones:
● Conocimiento del estado actual de los diseños y de maneras de migrarlos a un estado futuro
● Migración desde una ubicación local hacia la nube (Servicio de transferencia de datos, Transfer Appliance y Cloud Networking)
● Validación de migraciones
Sección 2: Creación y operación de sistemas de procesamiento de datos
2.1 Creación y operación de sistemas de almacenamiento. Se incluyen las siguientes consideraciones:
● Uso eficaz de servicios administrados (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Datastore y Memorystore)
● Rendimiento y costos de almacenamiento
● Administración del ciclo de vida de los datos
2.2 Creación y puesta en funcionamiento de canalizaciones. Se incluyen las siguientes consideraciones:
● Limpieza de datos
● Lotes y transmisión
● Transformación
● Importación y adquisición de datos
● Integración a fuentes de datos nuevas
2.3 Compilación y puesta en funcionamiento de infraestructuras de procesamiento. Se incluyen las siguientes consideraciones:
● Aprovisionamiento de recursos
● Supervisión de canalizaciones
● Ajuste de canalizaciones
● Pruebas y control de calidad
Sección 3: Puesta en funcionamiento de modelos de aprendizaje automático
3.1 Aprovechamiento de los modelos de AA prediseñados como servicio. Se incluyen las siguientes consideraciones:
● API de AA (p. ej., API de Vision y API de Speech)
● Personalización de las APIs de AA (p. ej., AutoML Vision y texto de Auto ML)
● Experiencias de conversación (p. ej., Dialogflow)
3.2 Implementación de una canalización de AA. Se incluyen las siguientes consideraciones:
● Transferencia de datos adecuados
● Perfeccionamiento de los modelos de aprendizaje automático (AI Platform Prediction and Training, BigQuery ML, Kubeflow y Spark ML)
● Evaluación continua
3.3 Elección de la infraestructura adecuada de servicios y entrenamiento. Se incluyen las siguientes consideraciones:
● Máquina individual frente a infraestructura distribuida
● Uso de procesamiento perimetral
● Aceleradores de hardware (p. ej., GPU y TPU)
3.4 Medición, supervisión y solución de problemas con los modelos de aprendizaje automático. Se incluyen las siguientes consideraciones:
● Terminología de aprendizaje automático (p. ej., funciones, etiquetas, modelos, regresión, clasificación, recomendación, aprendizaje supervisado y no supervisado, y métricas de evaluación)
● Impacto de las dependencias de los modelos de aprendizaje automático
● Fuentes comunes de errores (p. ej., suposiciones sobre los datos)
Sección 4: Garantía de calidad de la solución
4.1 Diseño para la seguridad y el cumplimiento. Se incluyen las siguientes consideraciones:
● Administración de identidades y accesos (p. ej., Cloud IAM)
● Seguridad de los datos (administración de claves y encriptación)
● Garantía de privacidad (p. ej., API de Data Loss Prevention)
● Cumplimiento de normativas (p. ej., Ley de Responsabilidad y Portabilidad de Seguros Médicos [HIPAA], Ley de Protección de la Privacidad de Menores en Internet [COPPA], FedRAMP y Reglamento General de Protección de Datos [GDPR])
4.2 Garantía de escalabilidad y eficiencia. Se incluyen las siguientes consideraciones:
● Compilación y ejecución de paquetes de prueba
● Supervisión de canalizaciones (p. ej., Cloud Monitoring)
● Evaluación, solución de problemas y mejora de las representaciones de datos y la infraestructura de procesamiento de datos
● Ajuste de escala automático y cambio de tamaño de recursos
4.3 Garantía de confiabilidad y fidelidad. Se incluyen las siguientes consideraciones:
● Preparación de datos y realización de controles de calidad (p. ej., Dataprep) Dataprep)
● Verificación y supervisión
● Planificación y ejecución de la recuperación de datos, y pruebas de esfuerzo respecto de los procedimientos correspondientes (p. ej., tolerancia a errores, nueva ejecución de trabajos fallidos y nuevos análisis retrospectivos)
● Elección entre ACID, tareas idempotentes y requisitos con coherencia eventual
4.4 Seguridad de la flexibilidad y portabilidad. Se incluyen las siguientes consideraciones:
● Correspondencias respecto de requisitos comerciales actuales y futuros
● Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos en varias nubes)
● Descubrimiento, categorización y etapa de pruebas de datos