Professional Data Engineer

Guia do exame da certificação

Professional Data Engineer

Exemplo de estudo de caso

Durante o exame da certificação Data Engineer, algumas das perguntas podem se referir a um estudo de caso que descreve um conceito de soluções e negócios fictícios. Esses estudos de caso têm como objetivo oferecer mais contexto para ajudar você a escolher suas respostas. Analise alguns exemplos de estudos de caso que podem ser usados no exame.

Descrição da função

Um Google Certified Professional - Data Engineer possibilita a tomada de decisões baseadas em dados por meio da coleta, transformação e visualização de dados. O engenheiro de dados precisa conseguir projetar, criar, manter e solucionar problemas de sistemas de processamento de dados com ênfase particular na segurança, confiabilidade, tolerância a falhas, escalonabilidade, fidelidade e eficiência desses sistemas. O engenheiro de dados também precisa conseguir analisar dados para ter insights sobre resultados comerciais, desenvolver modelos estatísticos para apoiar a tomada de decisões e criar modelos de aprendizado de máquina para automatizar e simplificar processos comerciais essenciais.

O exame está disponível em inglês, japonês, espanhol e português.

Guia do exame da certificação

Seção 1: projeto de sistemas de processamento de dados

1.1 Projeto de representações de dados flexíveis. As considerações incluem os itens a seguir:

  • avanços futuros na tecnologia de dados
  • mudanças nos requisitos comerciais
  • consciência sobre o estado atual e como migrar o projeto para um estado futuro
  • modelagem de dados
  • contrapartidas
  • sistemas distribuídos
  • projeto do esquema

1.2 Projeto de canais de dados. As considerações incluem os itens a seguir:

  • avanços futuros na tecnologia de dados
  • mudanças nos requisitos comerciais
  • consciência sobre o estado atual e como migrar o projeto para um estado futuro
  • modelagem de dados
  • contrapartidas
  • disponibilidade do sistema
  • sistemas distribuídos
  • projeto do esquema
  • fontes comuns de erro (por exemplo, remoção de viés de seleção)

1.3 Projeto de infraestrutura de processamento de dados. As considerações incluem os itens a seguir:

  • avanços futuros na tecnologia de dados
  • mudanças nos requisitos comerciais
  • consciência do estado atual, como migrar o projeto para o estado futuro
  • modelagem de dados
  • contrapartidas
  • disponibilidade do sistema
  • sistemas distribuídos
  • projeto do esquema
  • planejamento de capacidade
  • diferentes tipos de arquiteturas: agentes de mensagens, filas de mensagens, middleware, orientadas a serviços

Seção 2: criação e manutenção de estruturas de dados e bancos de dados

2.1 Criação e manutenção de representações de dados flexíveis

2.2 Criação e manutenção de canais. As considerações incluem os itens a seguir:

  • exclusão de dados
  • lote e streaming
  • transformação
  • adquirir e importar dados
  • teste e controle de qualidade
  • conexão a novas fontes de dados

2.3 Criação e manutenção de infraestrutura de processamento. As considerações incluem os itens a seguir:

  • provisionamento de recursos
  • monitoramento de canais
  • ajuste de canais
  • teste e controle de qualidade

Seção 3: análise de dados e ativação do aprendizado de máquina

3.1 Análise de dados. As considerações incluem os itens a seguir:

  • coleta e rotulagem de dados
  • visualização de dados
  • redução de dimensionalidade
  • normalização/exclusão de dados
  • definição de métricas de sucesso

3.2 Aprendizado de máquina. As considerações incluem os itens a seguir:

  • engenharia/seleção de recursos
  • seleção de algoritmo
  • depuração de um modelo

3.3 Implantação do modelo de aprendizado de máquina. As considerações incluem os itens a seguir:

  • otimização de desempenho/custo
  • aprendizado on-line/dinâmico

Seção 4: modelagem de processos comerciais para análise e otimização

4.1 Mapeamento de requisitos comerciais para representações de dados. As considerações incluem os itens a seguir:

  • trabalho com usuários corporativos
  • coleta de requisitos comerciais

4.2 Otimização de representações de dados, desempenho da infraestrutura de dados e custos. As considerações incluem os itens a seguir:

  • redimensionamento e escalonamento de recursos
  • exclusão de dados, sistemas distribuídos
  • algoritmos de alto desempenho
  • fontes comuns de erro (por exemplo, remoção de viés de seleção)

Seção 5: garantia da confiabilidade

5.1 Realização do controle de qualidade. As considerações incluem os itens a seguir:

  • verificação
  • criação e execução de pacotes de teste
  • monitoramento de canal

5.2 Avaliação, solução de problemas e aprimoramento de representações de dados e infraestrutura de processamento de dados.

5.3 Recuperação de dados. As considerações incluem os itens a seguir:

  • planejamento (por exemplo, tolerância a falhas)
  • execução (por exemplo, nova execução de tarefas com falha, execução de nova análise retrospectiva)
  • planos e processos de recuperação de dados de teste de estresse

Seção 6: visualização de dados e implantação de políticas

6.1 Criação (ou seleção) de ferramentas de relatórios e visualização de dados. As considerações incluem os itens a seguir:

  • automação
  • suporte à decisão
  • resumo de dados (por exemplo, tradução ascendente na cadeia, fidelidade, rastreabilidade, integridade)

6.2 Implantação de políticas e publicação de dados e relatórios.

Seção 7: projeto para segurança e conformidade

7.1 Projeto de processos e infraestrutura de dados seguros. As considerações incluem os itens a seguir:

  • Gerenciamento de identidade e acesso (IAM, na sigla em inglês)
  • segurança dos dados
  • teste de penetração
  • Separação de deveres (SoD, na sigla em inglês)
  • controle de segurança

7.2 Projeto para conformidade legal. As considerações incluem os itens a seguir:

  • legislação (por exemplo, Lei de Portabilidade e Responsabilidade de Seguros de Saúde [HIPAA, na sigla em inglês], Lei de Proteção da Privacidade On-line das Crianças [COPPA, na sigla em inglês] etc.)
  • auditorias