Professional Data Engineer

Guia do exame de certificação

Um Professional Data Engineer torna os dados utilizáveis e valiosos para outras pessoas, coletando, transformando e publicando dados. Esse indivíduo avalia e seleciona produtos e serviços para atender aos requisitos regulatórios e comerciais. Um Professional Data Engineer cria e gerencia sistemas robustos de processamento de dados. Isso inclui a capacidade de projetar, criar, implantar, monitorar, manter e proteger cargas de trabalho de processamento de dados.

Inscreva-se Inscreva-se

Seção 1: projetar sistemas de processamento de dados (cerca de 22% do exame)

1.1 Projetar priorizando a segurança e a conformidade. Inclui as seguintes considerações:

● Identity and Access Management (por exemplo, Cloud IAM e políticas da organização)

● Data security (Segurança de dados (criptografia e gerenciamento de chaves)

● Privacidade (por exemplo, informações de identificação pessoal e API Cloud Data Loss Prevention)

● Considerações regionais (soberania de dados) para acesso e armazenamento de dados

● Conformidade com a legislação e a regulamentação

1.2 Projetar com foco em confiabilidade e fidelidade. As considerações incluem:

● Preparação e limpeza de dados (por exemplo, Dataprep, Dataflow e Cloud Data Fusion)

● Monitoramento e orquestração de pipelines de dados

● Recuperação de desastres e tolerância a falhas

● Tomada de decisões relacionadas à conformidade e à disponibilidade de ACID (atomicidade, consistência, isolamento e durabilidade)

● Validação de dados

1.3 Projetar pensando na flexibilidade e portabilidade. As considerações incluem:

● Mapeamento de requisitos de negócios atuais e futuros para a arquitetura

● Projeto com foco em portabilidade de dados e aplicativos (por exemplo, várias nuvens e requisitos de residência de dados)

● Preparação, catalogação e descoberta de dados (governança de dados)

1.4 Projetar migrações de dados. As considerações incluem:

● Analisar necessidades, usuários, processos e tecnologias atuais das partes interessadas e criar um plano para atingir o estado desejado

● Planejar a migração para o Google Cloud (por exemplo, serviço de transferência de dados do BigQuery, Database Migration Service, Transfer Appliance, rede do Google Cloud e Datastream)

● Projetar a estratégia de validação da migração

● Projetar a arquitetura do projeto, do conjunto de dados e da tabela para garantir uma governança de dados adequada

Seção 2: ingerir e processar dados (cerca de 25% do exame)

2.1 Planejar os pipelines de dados. As considerações incluem:

● Definir coletores e fontes de dados

● Definir a lógica de transformação de dados

● Princípios básicos de rede

● Criptografia de dados

2.2 Criação de pipelines. As considerações incluem:

● Limpeza de dados

● Identificar os serviços (por exemplo, Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, ecossistema Hadoop e Apache Kafka)

● Transformações

○ Lote

○ Streaming (por exemplo, janelamento e dados de chegada tardia)

○ Linguagem

○ Ingestão de dado ad hoc (pipeline único ou automatizado)

● Aquisição e importação de dados

● Integração com novas fontes de dados

2.3 Implantar e operacionalizar pipelines. As considerações incluem:

● Automação e orquestração de jobs (por exemplo, Cloud Composer e Workflows)

● CI/CD (integração contínua e implantação contínua)

Seção 3: armazenar dados (aproximadamente 20% do exame)

3.1 Seleção de sistemas de armazenamento. As considerações incluem:

● Análise de padrões de acesso aos dados

● Escolha de serviços gerenciados (por exemplo, Bigtable, Cloud Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)

● Planejamento do custo e do desempenho do armazenamento

● Gerenciamento do ciclo de vida dos dados

3.2 Planejar o uso de um data warehouse. As considerações incluem:

● Projetar o modelo de dados

● Decidir o grau de normalização dos dados

● Mapeamento de requisitos comerciais

● Definir a arquitetura para oferecer suporte a padrões de acesso aos dados

3.3 Uso de um data lake. As considerações incluem:

● Gerenciamento do lake (configuração de descoberta de dados, acesso e controles de custo)

● Processamento dos dados

● Monitoramento do data lake

3.4 Projetar para uma malha de dados. As considerações incluem:

● Criar uma malha de dados com base nos requisitos usando ferramentas do Google Cloud (por exemplo, Dataplex, Data Catalog, BigQuery e Cloud Storage)

● Segmentação de dados para uso de equipe distribuído

● Criar um modelo de governança federado para sistemas de dados distribuídos

Seção 4: preparar e usar dados para análise (aproximadamente 15% do exame)

4.1 Preparação de dados para visualização. As considerações incluem:

● Conexão com ferramentas

● Pré-calcular os campos

● Visualizações materializadas do BigQuery (lógica de visualização)

● Determinação da granularidade dos dados de tempo

● Solução de problemas de consultas com baixo desempenho

● Identity and Access Management (IAM) e Cloud Data Loss Prevention (Cloud DLP)

4.2 Compartilhar dados. As considerações incluem:

● Definir regras para compartilhar dados

● Publicação de conjuntos de dados

● Publicação de relatórios e visualizações

● Analytics Hub

4.3 Explorar e analisar dados. As considerações incluem:

● Preparar dados para a engenharia de atributos (treinar e disponibilizar modelos de machine learning)

● Realizar descoberta de dados

Seção 5: manter e automatizar cargas de trabalho de dados (aproximadamente 18% do exame)

5.1 Otimizar recursos. As considerações incluem:

● Minimizar os custos de acordo com a necessidade comercial necessária com relação aos dados

● Garantir que recursos suficientes estejam disponíveis para processos de dados críticos para os negócios

● Decidir entre clusters de dados persistentes ou baseados em jobs (por exemplo, Dataproc)

5.2 Projetar automação e capacidade de repetição. As considerações incluem:

● Criar gráficos acíclicos dirigidos (DAGs) para o Cloud Composer;

● Programação de jobs de maneira repetível

5.3 Organizar cargas de trabalho com base nos requisitos comerciais. As considerações incluem:

● Preços de slots flexíveis, sob demanda e com taxa fixa (índice de flexibilidade ou capacidade fixa)

● Jobs de consulta interativa ou em lote

5.4 Processos de monitoramento e solução de problemas. As considerações incluem:

● Observabilidade dos processos de dados (por exemplo, Cloud Monitoring, Cloud Logging e painel de administração do BigQuery)

● Monitoramento do uso planejado

● Solução de problemas de mensagens de erro, problemas de faturamento e cotas

● Gerencie cargas de trabalho, como jobs, consultas e capacidade de computação (reservas).

5.5 Manter a conscientização sobre falhas e reduzir os impactos As considerações incluem:

● Projetar um sistema de tolerância a falhas e gerenciamento de reinicializações

● Executar jobs em várias regiões ou zonas

● Preparação para dados corrompidos e ausentes

● Replicação de dados e failover (por exemplo, Cloud SQL e clusters do Redis)

Vá além

Qual a solução que você procura? Um especialista do Google Cloud ajudará você a encontrar a melhor solução.

Entre em contato com a equipe de vendas

Vá além

Qual a solução que você procura? Um especialista do Google Cloud ajudará você a encontrar a melhor solução.

Entre em contato com a equipe de vendas

Trabalhe com um parceiro confiável
Encontre um parceiro
Comece a usar o Google Cloud
Faça um teste gratuito
Continue navegando
Confira todos os produtos

Trabalhe com um parceiro confiável
Encontre um parceiro
Comece a usar o Google Cloud
Acesse o console
Continue navegando
Confira todos os produtos