Professional Data Engineer

Guia do exame da certificação

Professional Data Engineer

Exemplo de estudo de caso

Durante o exame da certificação Data Engineer, algumas das perguntas podem se referir a um estudo de caso que descreve um conceito de soluções e negócios fictícios. Esses estudos de caso têm como objetivo oferecer mais contexto para ajudar você a escolher suas respostas. Analise alguns exemplos de estudos de caso que podem ser usados no exame.

Descrição da função

Um Google Certified Professional - Data Engineer possibilita a tomada de decisões baseadas em dados por meio da coleta, transformação e visualização de dados. O engenheiro de dados precisa conseguir projetar, criar, manter e solucionar problemas de sistemas de processamento de dados com ênfase particular na segurança, confiabilidade, tolerância a falhas, escalonabilidade, fidelidade e eficiência desses sistemas. Ele também precisa conseguir analisar dados para ter insights sobre resultados comerciais, desenvolver modelos estatísticos para apoiar a tomada de decisões e criar modelos de machine learning para automatizar e simplificar processos comerciais importantes.

O exame está disponível em inglês, japonês, espanhol e português.

Guia do exame da certificação

Seção 1: projeto de sistemas de processamento de dados

1.1 Projeto de representações de dados flexíveis. As considerações incluem os itens a seguir:

  • Avanços futuros na tecnologia de dados
  • Mudanças nos requisitos comerciais
  • Consciência sobre o estado atual e como migrar o projeto para um estado futuro
  • Modelagem de dados
  • Contrapartidas
  • Sistemas distribuídos
  • Projeto do esquema

1.2 Projeto de canais de dados. As considerações incluem os itens a seguir:

  • Avanços futuros na tecnologia de dados
  • Mudanças nos requisitos comerciais
  • Consciência sobre o estado atual e como migrar o projeto para um estado futuro
  • Modelagem de dados
  • Contrapartidas
  • Disponibilidade do sistema
  • Sistemas distribuídos
  • Projeto do esquema
  • Fontes comuns de erro (por exemplo, remoção de viés de seleção)

1.3 Projeto de infraestrutura de processamento de dados. As considerações incluem os itens a seguir:

  • Avanços futuros na tecnologia de dados
  • Mudanças nos requisitos comerciais
  • Consciência do estado atual, como migrar o projeto para o estado futuro
  • Modelagem de dados
  • Contrapartidas
  • Disponibilidade do sistema
  • Sistemas distribuídos
  • Projeto do esquema
  • Planejamento de capacidade
  • Diferentes tipos de arquiteturas: agentes de mensagens, filas de mensagens, middleware, orientadas a serviços

Seção 2: criação e manutenção de estruturas de dados e bancos de dados

2.1 Criação e manutenção de representações de dados flexíveis

2.2 Criação e manutenção de canais. As considerações incluem os itens a seguir:

  • Exclusão de dados
  • Lote e streaming
  • Transformação
  • Adquirir e importar dados
  • Teste e controle de qualidade
  • Conexão a novas fontes de dados

2.3 Criação e manutenção de infraestrutura de processamento. As considerações incluem os itens a seguir:

  • Provisionamento de recursos
  • Monitoramento de canais
  • Ajuste de canais
  • Teste e controle de qualidade

Seção 3: análise de dados e ativação do machine learning

3.1 Análise de dados. As considerações incluem os itens a seguir:

  • Coleta e rotulagem de dados
  • Visualização de dados
  • Redução de dimensionalidade
  • Normalização/exclusão de dados
  • Definição de métricas de sucesso

3.2 Machine learning. As considerações incluem os itens a seguir:

  • Engenharia/seleção de recursos
  • Seleção de algoritmo
  • Depuração de um modelo

3.3 Implantação do modelo de machine learning. As considerações incluem os itens a seguir:

  • Otimização de desempenho/custo
  • Aprendizado on-line/dinâmico

Seção 4: modelagem de processos comerciais para análise e otimização

4.1 Mapeamento de requisitos comerciais para representações de dados. As considerações incluem os itens a seguir:

  • Trabalho com usuários corporativos
  • Coleta de requisitos comerciais

4.2 Otimização de representações de dados, desempenho da infraestrutura de dados e custos. As considerações incluem os itens a seguir:

  • Redimensionamento e escalonamento de recursos
  • Limpeza de dados, sistemas distribuídos
  • Algoritmos de alto desempenho
  • Fontes comuns de erro (por exemplo, remoção de viés de seleção)

Seção 5: garantia da confiabilidade

5.1 Realização do controle de qualidade. As considerações incluem os itens a seguir:

  • Verificação
  • Criação e execução de pacotes de teste
  • Monitoramento de canal

5.2 Avaliação, solução de problemas e aprimoramento de representações de dados e infraestrutura de processamento de dados.

5.3 Recuperação de dados. As considerações incluem os itens a seguir:

  • Planejamento (por exemplo, tolerância a falhas)
  • Execução (por exemplo, nova execução de tarefas com falha, execução de nova análise retrospectiva)
  • Planos e processos de recuperação de dados de teste de estresse

Seção 6: visualização de dados e implantação de políticas

6.1 Criação (ou seleção) de ferramentas de relatórios e visualização de dados. As considerações incluem os itens a seguir:

  • Automação
  • Suporte à decisão
  • Resumo de dados (por exemplo, tradução ascendente na cadeia, fidelidade, rastreabilidade, integridade)

6.2 Implantação de políticas e publicação de dados e relatórios.

Seção 7: projeto para segurança e conformidade

7.1 Projeto de processos e infraestrutura de dados seguros. As considerações incluem os itens a seguir:

  • Gerenciamento de identidade e acesso (IAM, na sigla em inglês)
  • Segurança dos dados
  • Teste de penetração
  • Separação de deveres (SoD, na sigla em inglês)
  • Controle de segurança

7.2 Projeto para conformidade legal. As considerações incluem os itens a seguir:

  • Legislação (por exemplo, Lei de Portabilidade e Responsabilidade de Seguros de Saúde [HIPAA, na sigla em inglês], Lei de Proteção da Privacidade On-line das Crianças [COPPA, na sigla em inglês] etc.)
  • Auditorias