Receba um cupom de certificação, acesso todo o treinamento sob demanda e US$ 500 em créditos do Google Cloud por meio do Innovators Plus. Conheça todos os benefícios.

Professional Data Engineer

Guia do exame de certificação

Um Professional Data Engineer torna os dados utilizáveis e valiosos para outras pessoas, coletando, transformando e publicando dados. Esse indivíduo avalia e seleciona produtos e serviços para atender aos requisitos regulatórios e comerciais. Um Professional Data Engineer cria e gerencia sistemas robustos de processamento de dados. Isso inclui a capacidade de projetar, criar, implantar, monitorar, manter e proteger cargas de trabalho de processamento de dados.


Seção 1: projetar sistemas de processamento de dados (cerca de 22% do exame)

1.1 Projetar priorizando a segurança e a conformidade. Inclui as seguintes considerações: 

    ●  Identity and Access Management (por exemplo, Cloud IAM e políticas da organização)

    ●  Data security (Segurança de dados (criptografia e gerenciamento de chaves)

    ●  Privacidade (por exemplo, informações de identificação pessoal e API Cloud Data Loss Prevention)

    ●  Considerações regionais (soberania de dados) para acesso e armazenamento de dados

    ●  Conformidade com a legislação e a regulamentação

1.2 Projetar com foco em confiabilidade e fidelidade. Inclui as seguintes considerações:

    ●  Preparação e limpeza de dados (por exemplo, Dataprep, Dataflow e Cloud Data Fusion)

    ●  Monitoramento e orquestração de pipelines de dados

    ●  Recuperação de desastres e tolerância a falhas

    ●  Tomada de decisões relacionadas à conformidade e à disponibilidade de ACID (atomicidade, consistência, isolamento e durabilidade)

    ●  Validação de dados

1.3 Projetar pensando na flexibilidade e portabilidade. Inclui as seguintes considerações:

    ●  Mapeamento de requisitos de negócios atuais e futuros para a arquitetura

    ●  Projeto com foco em portabilidade de dados e aplicativos (por exemplo, várias nuvens e requisitos de residência de dados)

    ●  Preparação, catalogação e descoberta de dados (governança de dados)

1.4 Projetar migrações de dados. Inclui as seguintes considerações:

    ●  Analisar necessidades, usuários, processos e tecnologias atuais das partes interessadas e criar um plano para atingir o estado desejado

    ●  Planejar a migração para o Google Cloud (por exemplo, serviço de transferência de dados do BigQuery, Database Migration Service, Transfer Appliance, rede do Google Cloud e Datastream)

    ●  Projetar a estratégia de validação da migração

    ●  Projetar a arquitetura do projeto, do conjunto de dados e da tabela para garantir uma governança de dados adequada 

Seção 2: ingerir e processar dados (cerca de 25% do exame)

2.1 Planejar os pipelines de dados. As considerações incluem:

    ●  Definir coletores e fontes de dados

    ●  Definir a lógica de transformação de dados

    ●  Princípios básicos de rede

    ●  Criptografia de dados

2.2 Criação de pipelines. Inclui as seguintes considerações:

    ●  Limpeza de dados

    ●  Identificar os serviços (por exemplo, Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, ecossistema Hadoop e Apache Kafka)

    ●  Transformações

        ○  Lote

        ○  Streaming (por exemplo, janelamento e dados de chegada tardia)

        ○  Linguagem

        ○  Ingestão de dado ad hoc (pipeline único ou automatizado)

    ●  Aquisição e importação de dados

    ●  Integração com novas fontes de dados 

2.3 Implantar e operacionalizar pipelines. Inclui as seguintes considerações:

    ●  Automação e orquestração de jobs (por exemplo, Cloud Composer e Workflows)

    ●  CI/CD (integração contínua e implantação contínua)

Seção 3: armazenar dados (aproximadamente 20% do exame)

3.1 Seleção de sistemas de armazenamento. Inclui as seguintes considerações:

    ●  Análise de padrões de acesso aos dados

    ●  Escolha de serviços gerenciados (por exemplo, Bigtable, Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)

    ●  Planejamento do custo e do desempenho do armazenamento

    ●  Gerenciamento do ciclo de vida dos dados

3.2 Planejar o uso de um data warehouse. As considerações incluem:

    ●  Projetar o modelo de dados

    ●  Decidir o grau de normalização dos dados

    ●  Mapeamento de requisitos comerciais

    ●  Definir a arquitetura para oferecer suporte a padrões de acesso aos dados

3.3 Uso de um data lake. Inclui as seguintes considerações:

    ●  Gerenciamento do lake (configuração de descoberta de dados, acesso e controles de custo)

    ●  Processamento dos dados

    ●  Monitoramento do data lake

3.4 Projetar para uma malha de dados. Inclui as seguintes considerações:

    ●  Criar uma malha de dados com base nos requisitos usando ferramentas do Google Cloud (por exemplo, Dataplex, Data Catalog, BigQuery e Cloud Storage)

    ●  Segmentação de dados para uso de equipe distribuído

    ●  Criar um modelo de governança federado para sistemas de dados distribuídos

Seção 4: preparar e usar dados para análise (aproximadamente 15% do exame)

4.1 Preparação de dados para visualização. As considerações incluem:

    ●  Conexão com ferramentas

    ●  Pré-calcular os campos

    ●  Visualizações materializadas do BigQuery (lógica de visualização)

    ●  Determinação da granularidade dos dados de tempo

    ●  Solução de problemas de consultas com baixo desempenho

    ●  Identity and Access Management (IAM) e Cloud Data Loss Prevention (Cloud DLP)

4.2 Compartilhar dados. Inclui as seguintes considerações:

    ●  Definir regras para compartilhar dados

    ●  Publicação de conjuntos de dados

    ●  Publicação de relatórios e visualizações

    ●  Analytics Hub

4.3 Explorar e analisar dados. As considerações incluem:

    ●  Preparar dados para a engenharia de atributos (treinar e disponibilizar modelos de machine learning)

    ●  Realizar descoberta de dados

Seção 5: manter e automatizar cargas de trabalho de dados (aproximadamente 18% do exame)

5.1 Otimizar recursos. Inclui as seguintes considerações:

    ●  Minimizar os custos de acordo com a necessidade comercial necessária com relação aos dados

    ●  Garantir que recursos suficientes estejam disponíveis para processos de dados críticos para os negócios

    ●  Decidir entre clusters de dados persistentes ou baseados em jobs (por exemplo, Dataproc)

5.2 Projetar automação e capacidade de repetição. Inclui as seguintes considerações:

    ●  Criar gráficos acíclicos dirigidos (DAGs) para o Cloud Composer;

    ●  Programação de jobs de maneira repetível 

5.3 Organizar cargas de trabalho com base nos requisitos comerciais. Inclui as seguintes considerações:

    ●  Preços de slots flexíveis, sob demanda e com taxa fixa (índice de flexibilidade ou capacidade fixa)

    ●  Jobs de consulta interativa ou em lote

5.4 Processos de monitoramento e solução de problemas. Inclui as seguintes considerações:

    ●  Observabilidade dos processos de dados (por exemplo, Cloud Monitoring, Cloud Logging e painel de administração do BigQuery)

    ●  Monitoramento do uso planejado

    ●  Solução de problemas de mensagens de erro, problemas de faturamento e cotas

    ●  Gerencie cargas de trabalho, como jobs, consultas e capacidade de computação (reservas).

5.5 Manter a conscientização sobre falhas e reduzir os impactos Inclui as seguintes considerações:

    ●  Projetar um sistema de tolerância a falhas e gerenciamento de reinicializações

    ●  Executar jobs em várias regiões ou zonas

    ●  Preparação para dados corrompidos e ausentes

    ●  Replicação de dados e failover (por exemplo, Cloud SQL e clusters do Redis)