Professional Data Engineer

Guia do exame de certificação

Um Professional Data Engineer toma decisões com base na coleta, transformação e publicação de dados. Ele é responsável por projetar, criar, operacionalizar, proteger e monitorar sistemas de processamento de dados com ênfase particular em segurança, conformidade, escalonabilidade, eficiência, confiabilidade, flexibilidade e portabilidade. Além disso, esse profissional também deve ser capaz de aproveitar, implantar e treinar continuamente modelos de machine learning preexistentes.

1. Projeto de sistemas de processamento de dados

    1.1 Seleção de tecnologias de armazenamento adequadas. Inclui:

    • Mapeamento de sistemas de armazenamento para atender aos requisitos comerciais
    • Modelagem de dados
    • Balanceamento de latência, taxa de transferência e transações
    • Sistemas distribuídos
    • Design do esquema

    1.2 Projeto de pipelines de dados. Inclui:

    • Publicação e visualização de dados (por exemplo, BigQuery)
    • Dados em lote e streaming (por exemplo, Cloud Dataflow, Cloud Dataproc, Apache Beam, Apache Spark, ecossistema Hadoop, Cloud Pub/Sub e Apache Kafka)
    • Predições on-line (interativas) × em lote
    • Automação e orquestração de jobs (por exemplo, Cloud Composer)

    1.3 Projeto de solução de processamento de dados. Inclui:

    • Escolha da infraestrutura
    • Disponibilidade do sistema e tolerância a falhas
    • Uso de sistemas distribuídos
    • Planejamento de capacidade
    • Nuvem híbrida e edge computing
    • Opções de arquitetura (por exemplo, agentes de mensagens, filas de mensagens, middleware, arquitetura orientada a serviços, funções sem servidor)
    • Processamento de eventos "pelo menos uma vez", "na ordem", "exatamente uma vez" etc.

    1.4 Migração do armazenamento e processamento de dados. Inclui:

    • Consciência sobre o estado atual e como migrar um projeto para um estado futuro
    • Migração da infraestrutura local para a nuvem (serviço de transferência de dados, Transfer Appliance, rede em nuvem)
    • Validação de uma migração

2. Criação e operacionalização de sistemas de processamento de dados

    2.1 Criação e operacionalização de sistemas de armazenamento. Inclui:

    • Uso eficaz de serviços gerenciados (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Cloud Datastore, Cloud Memorystore)
    • Custos e desempenho do armazenamento
    • Gerenciamento do ciclo de vida dos dados

    2.2 Criação e operacionalização de pipelines. Inclui:

    • Limpeza de dados
    • Lote e streaming
    • Transformação
    • Aquisição e importação de dados
    • Integração com novas fontes de dados

    2.3 Criação e operacionalização da infraestrutura de processamento. Inclui:

    • Provisionamento de recursos
    • Monitoramento de pipelines
    • Ajuste de pipelines
    • Teste e controle de qualidade

3. Operacionalização de modelos de machine learning

    3.1 Aproveitamento de modelos prontos de ML como serviço. Inclui:

    • APIs de ML (por exemplo, API Vision, API Speech)
    • Personalização de APIs de ML (por exemplo, AutoML Vision, Auto ML Text)
    • Experiências de conversa (por exemplo, Dialogflow)

    3.2 Implantação de um pipeline de ML. Inclui:

    • Ingestão dos dados certos
    • Novo treinamento de modelos de machine learning (Cloud Machine Learning Engine, BigQuery ML, Kubeflow, Spark ML)
    • Avaliação contínua

    3.3 Seleção da infraestrutura adequada de treinamento e disponibilização. Inclui:

    • Distribuído × máquina única
    • Uso de edge computing
    • Aceleradores de hardware (por exemplo, GPU e TPU)

    3.4 Medição, monitoramento e solução de problemas em modelos de machine learning. Inclui:

    • Terminologia de machine learning (por exemplo, atributos, rótulos, modelos, regressão, classificação, recomendação, aprendizado supervisionado e não supervisionado, além de métricas de avaliação)
    • Impacto de dependências de modelos de machine learning
    • Fontes comuns de erro (por exemplo, suposições sobre dados)

4. Garantia da qualidade da solução

    4.1 Projeto para segurança e conformidade. Inclui:

    • Gerenciamento de identidade e acesso (por exemplo, Cloud IAM)
    • Segurança de dados (criptografia, gerenciamento de chaves)
    • Garantia da privacidade (por exemplo, API Data Loss Prevention)
    • Conformidade jurídica (por exemplo, Lei de Portabilidade e Responsabilidade de Seguros de Saúde [HIPAA, na sigla em inglês], Lei de Proteção da Privacidade On-line das Crianças [COPPA, na sigla em inglês], FedRAMP, Regulamento geral de proteção de dados [GDPR, na sigla em inglês])

    4.2 Garantia de escalonabilidade e eficiência. Inclui:

    • Criação e execução de pacotes de teste
    • Monitoramento de pipelines (por exemplo, Stackdriver)
    • Avaliação, solução de problemas e aprimoramento da infraestrutura de representações e processamento de dados
    • Redimensionamento e escalonamento automático de recursos

    4.3 Garantia de confiabilidade e fidelidade. Inclui:

    • Preparação de dados e controle de qualidade (por exemplo, Cloud Dataprep)
    • Verificação e monitoramento
    • Planejamento, execução e testes de estresse para recuperação de dados (tolerância a falhas, nova execução de jobs com falha, execução de nova análise retrospectiva)
    • Escolha entre requisitos ACID, idempotentes e de consistência posterior

    4.4 Garantia de flexibilidade e portabilidade. Inclui:

    • Mapeamento para atender a requisitos empresariais atuais e futuros
    • Projeto para portabilidade de dados e aplicativos (por exemplo, várias nuvens, requisitos de residência de dados)
    • Preparação, catalogação e descoberta de dados