Professional Data Engineer

Guía para el examen de certificación

El Professional Data Engineer hace posible la toma de decisiones basada en datos mediante la recopilación, transformación y publicación de estos. El Data Engineer debe ser capaz de diseñar, compilar, poner en funcionamiento, proteger y supervisar los sistemas de procesamiento de datos, con especial énfasis en la seguridad, el cumplimiento, la escalabilidad, la eficiencia, la confiabilidad, la fidelidad, la flexibilidad y la portabilidad. Además, el Data Engineer debe ser capaz de aprovechar, implementar y entrenar constantemente los modelos preexistentes de aprendizaje automático.

1. Diseño de sistemas de procesamiento de datos

    1.1 Selección de tecnologías de almacenamiento adecuadas. Se incluyen las siguientes consideraciones:

    • Correspondencias entre sistemas de almacenamiento y requisitos comerciales
    • Modelado de datos
    • Concesiones entre la latencia, la capacidad de procesamiento y las transacciones
    • Sistemas distribuidos
    • Diseño de esquemas

    1.2 Diseño de canalizaciones de datos. Se incluyen las siguientes consideraciones:

    • Visualización y publicación de datos (p. ej., BigQuery)
    • Datos por lotes y de transmisión (p. ej., Cloud Dataflow, Cloud Dataproc, Apache Beam, el ecosistema de Apache Spark y Hadoop, Cloud Pub/Sub y Apache Kafka)
    • Comparación entre predicciones en línea (interactivas) y predicciones por lotes
    • Automatización y organización de trabajos (p. ej., Cloud Composer)

    1.3 Diseño de una solución de procesamiento de datos. Se incluyen las siguientes consideraciones:

    • Elección de la infraestructura
    • Tolerancia a errores y disponibilidad del sistema
    • Uso de sistemas distribuidos
    • Planificación de la capacidad
    • Procesamiento perimetral y nube híbrida
    • Opciones de arquitectura (p. ej., agentes de mensajes, colas de mensajes, middleware, arquitectura orientada a servicios y funciones sin servidores)
    • Procesamiento de eventos de los tipos “al menos una vez”, “en orden” y “exactamente una vez”, entre otros

    1.4 Migración del procesamiento y almacenamiento de datos. Se incluyen las siguientes consideraciones:

    • Conocimiento del estado actual de los diseños y de maneras de migrarlos a un estado futuro
    • Migración desde una ubicación local a la nube (Servicio de transferencia de datos, Transfer Appliance y Cloud Networking)
    • Validación de migraciones

2. Compilación y puesta en funcionamiento de sistemas de procesamiento de datos

    2.1 Compilación y puesta en funcionamiento de sistemas de almacenamiento. Se incluyen las siguientes consideraciones:

    • Uso eficaz de servicios administrados (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Cloud Datastore y Cloud Memorystore)
    • Rendimiento y costos de almacenamiento
    • Administración del ciclo de vida de los datos

    2.2 Compilación y puesta en funcionamiento de canalizaciones. Se incluyen las siguientes consideraciones:

    • Limpieza de datos
    • Lotes y transmisión
    • Transformación
    • Importación y adquisición de datos
    • Integración con fuentes de datos nuevas

    2.3 Compilación y puesta en funcionamiento de infraestructuras de procesamiento. Se incluyen las siguientes consideraciones:

    • Aprovisionamiento de recursos
    • Supervisión de canalizaciones
    • Ajuste de canalizaciones
    • Pruebas y control de calidad

3. Puesta en funcionamiento de modelos de aprendizaje automático

    3.1 Aprovechamiento de modelos de AA prediseñados como servicio. Se incluyen las siguientes consideraciones:

    • API de AA (p. ej., API de Vision y API de Speech)
    • Personalización de las API de AA (p. ej., AutoML Vision y texto de Auto ML)
    • Experiencias de conversación (p. ej., Dialogflow)

    3.2 Implementación de una canalización de AA. Se incluyen las siguientes consideraciones:

    • Transferencia de datos adecuados
    • Perfeccionamiento de los modelos de aprendizaje automático (Cloud Machine Learning Engine, BigQuery ML, Kubeflow y Spark ML)
    • Evaluación continua

    3.3 Elección de la infraestructura adecuada de servicios y entrenamiento. Se incluyen las siguientes consideraciones:

    • Máquina individual frente a infraestructura distribuida
    • Uso de procesamiento perimetral
    • Aceleradores de hardware (p. ej., GPU y TPU)

    3.4 Medición, supervisión y solución de problemas de los modelos de aprendizaje automático. Se incluyen las siguientes consideraciones:

    • Terminología de aprendizaje automático (p. ej., funciones, etiquetas, modelos, regresión, clasificación, recomendación, aprendizaje supervisado y no supervisado, y métricas de evaluación)
    • Impacto de las dependencias de los modelos de aprendizaje automático
    • Fuentes comunes de errores (p. ej., suposiciones sobre los datos)

4. Garantía de calidad de las soluciones

    4.1 Diseño para la seguridad y el cumplimiento. Se incluyen las siguientes consideraciones:

    • Administración de identidades y accesos (p. ej., Cloud IAM)
    • Seguridad de los datos (administración de claves y encriptación)
    • Garantía de privacidad (p. ej., API de Data Loss Prevention)
    • Cumplimiento de normativas (p. ej., Ley de Responsabilidad y Portabilidad de Seguros Médicos [HIPAA], Ley de Protección de la Privacidad de Menores en Internet [COPPA], FedRAMP y Reglamento General de Protección de Datos [GDPR])

    4.2 Garantía de escalabilidad y eficiencia. Se incluyen las siguientes consideraciones:

    • Compilación y ejecución de paquetes de prueba
    • Supervisión de canalizaciones (p. ej., Stackdriver)
    • Evaluación, solución de problemas y mejora de las representaciones de datos y la infraestructura de procesamiento de datos
    • Ajuste de escala automático y cambio de tamaño de recursos

    4.3 Garantía de confiabilidad y fidelidad. Se incluyen las siguientes consideraciones:

    • Preparación de datos y realización de controles de calidad (p. ej., Cloud Dataprep)
    • Verificación y supervisión
    • Planificación y ejecución de la recuperación de datos, y pruebas de esfuerzo respecto de los procedimientos correspondientes (p. ej., tolerancia a errores, nueva ejecución de trabajos fallidos y nuevos análisis retrospectivos)
    • Elección entre ACID, tareas idempotentes y requisitos con coherencia eventual

    4.4 Garantía de flexibilidad y portabilidad. Se incluyen las siguientes consideraciones:

    • Correspondencias respecto de requisitos comerciales actuales y futuros
    • Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos en varias nubes)
    • Descubrimiento, categorización y etapa de pruebas de datos