Acelere seu aprendizado e crescimento com o Google Cloud Innovators. Participe agora

Professional Data Engineer

Guia do exame de certificação

Com um Professional Data Engineer, é possível tomar decisões com base na coleta, transformação e publicação de dados. Esse profissional pode projetar, criar, operacionalizar, proteger e monitorar sistemas de processamento de dados com maior ênfase em segurança, conformidade, escalonabilidade, eficiência, confiabilidade, fidelidade, flexibilidade e portabilidade. Ele também está preparado para usar, implantar e treinar continuamente modelos de machine learning preexistentes.


Seção 1. Projetar sistemas de processamento de dados

1.1 Selecionar tecnologias de armazenamento adequadas. As considerações incluem:

    a. Mapeamento de sistemas de armazenamento para atender aos requisitos comerciais

    b. Modelagem de dados

    c. Balanceamento de latência, taxa de transferência e transações

    d. Sistemas distribuídos

    e. Projeto do esquema

1.2 Projetar pipelines de dados. As considerações incluem:

    a. Publicação e visualização de dados (por exemplo, BigQuery)

    b. Dados em lote e streaming (por exemplo, Dataflow, Dataproc, Apache Beam, Apache Spark e ecossistema Hadoop, Pub/Sub e Apache Kafka)

    c. Predições on-line (interativas) × em lote

    d. Automação e orquestração de jobs (por exemplo, Cloud Composer)

1.3 Projetar uma solução de processamento de dados. As considerações incluem:

    a. Escolha da infraestrutura

    b. Disponibilidade do sistema e tolerância a falhas

    c. Uso de sistemas distribuídos

    d. Planejamento de capacidade

    e. Nuvem híbrida e computação de borda

    f. Opções de arquitetura (por exemplo, agentes de mensagens, filas de mensagens, middleware, arquitetura orientada a serviços e funções sem servidor)

    g. Processamento de eventos "pelo menos uma vez", "na ordem", "exatamente uma vez" etc.

1.4 Migrar o armazenamento em data warehouse e processamento de dados. As considerações incluem:

    a. Consciência sobre o estado atual e como migrar um projeto para um estado futuro

    b. Migração da infraestrutura local para a nuvem (Data Transfer Service, Transfer Appliance, Cloud Networking)

    c. Validação de uma migração

Seção 2. Criar e operacionalizar sistemas de processamento de dados

2.1 Criar e operacionalizar sistemas de armazenamento. As considerações incluem:

    a. Uso eficaz de serviços gerenciados (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Datastore e Memorystore)

    b. Custos e desempenho do armazenamento

    c. Gerenciamento do ciclo de vida dos dados

2.2 Criar e operacionalizar pipelines. As considerações incluem:

    a. Limpeza de dados

    b. Lote e streaming

    c. Transformação

    d. Aquisição e importação de dados

    e. Integração com novas fontes de dados

2.3 Criar e operacionalizar a infraestrutura de processamento. As considerações incluem:

    a. Provisionamento de recursos

    b. Monitoramento de pipelines

    c. Ajuste de pipelines

    d. Teste e controle de qualidade

Seção 3. Operacionalização de modelos de machine learning

3.1 Aproveitar modelos prontos de ML como serviço. As considerações incluem:

    a. APIs de ML (por exemplo, API Vision e API Speech)

    b. Personalização de APIs de ML (por exemplo, AutoML Vision e Auto ML Text)

    c. Experiências de conversa (por exemplo, Dialogflow)

3.2 Implantar um pipeline de ML. As considerações incluem:

    a. Ingestão dos dados certos

    b. Novo treinamento de modelos de machine learning (AI Platform Prediction e Training, BigQuery ML, Kubeflow e Spark ML)

    c. Avaliação contínua

3.3 Selecionar a infraestrutura adequada de treinamento e disponibilização. As considerações incluem:

    a. Distribuído × máquina única

    b. Uso de edge computing

    c. Aceleradores de hardware (por exemplo, GPU e TPU)

3.4 Medir, monitorar e solucionar problemas em modelos de machine learning. As considerações incluem:

    a. Terminologia de machine learning (por exemplo, recursos, rótulos, modelos, regressão, classificação, recomendação, aprendizado supervisionado e não supervisionado e métricas de avaliação)

    b. Impacto de dependências de modelos de machine learning

    c. Fontes comuns de erro (por exemplo, suposições sobre dados)

Seção 4. Garantir a qualidade da solução

4.1 Projetar com foco em segurança e conformidade. As considerações incluem:

    a. Gerenciamento de identidade e acesso (por exemplo, Cloud IAM)

    b. Segurança de dados (criptografia e gerenciamento de chaves)

    c. Garantia da privacidade (por exemplo, API Data Loss Prevention)

    d. Conformidade jurídica (por exemplo, Lei de Portabilidade e Responsabilidade de Seguros de Saúde [HIPAA], Lei de Proteção da Privacidade On-line das Crianças [COPPA], FedRAMP, Regulamento geral de proteção de dados [GDPR])

4.2 Garantir escalonabilidade e eficiência. As considerações incluem:

    a. Criação e execução de pacotes de teste

    b. Monitoramento de pipeline (por exemplo, Cloud Monitoring)

    c. Avaliação, solução de problemas e aprimoramento da infraestrutura de representações e processamento de dados

    d. Redimensionamento e escalonamento automático de recursos

4.3 Garantir confiabilidade e fidelidade. As considerações incluem:

    a. Execução de preparação de dados e controle de qualidade (por exemplo, Dataprep)

    b. Verificação e monitoramento

    c. Planejamento, execução e recuperação de dados de testes de estresse (tolerância a falhas, nova execução de jobs com falha, execução de nova análise retrospectiva)

    d. Escolha entre requisitos ACID, idempotentes e de consistência posterior

4.4 Garantir flexibilidade e portabilidade. As considerações incluem:

    a. Adequação aos requisitos de negócios atuais e futuros

    b. Projeto com foco em portabilidade de dados e aplicativos (por exemplo, várias nuvens e requisitos de residência de dados)

    c. Preparação, catalogação e descoberta de dados