Professional Data Engineer
Guia do exame de certificação
Um Professional Data Engineer torna os dados utilizáveis e valiosos para outras pessoas, coletando, transformando e publicando dados. Esse indivíduo avalia e seleciona produtos e serviços para atender aos requisitos regulatórios e comerciais. Um Professional Data Engineer cria e gerencia sistemas robustos de processamento de dados. Isso inclui a capacidade de projetar, criar, implantar, monitorar, manter e proteger cargas de trabalho de processamento de dados.
Seção 1: projetar sistemas de processamento de dados (cerca de 22% do exame)
1.1 Projetar priorizando a segurança e a conformidade. Inclui as seguintes considerações:
● Identity and Access Management (por exemplo, Cloud IAM e políticas da organização)
● Data security (Segurança de dados (criptografia e gerenciamento de chaves)
● Privacidade (por exemplo, informações de identificação pessoal e API Cloud Data Loss Prevention)
● Considerações regionais (soberania de dados) para acesso e armazenamento de dados
● Conformidade com a legislação e a regulamentação
1.2 Projetar com foco em confiabilidade e fidelidade. Inclui as seguintes considerações:
● Preparação e limpeza de dados (por exemplo, Dataprep, Dataflow e Cloud Data Fusion)
● Monitoramento e orquestração de pipelines de dados
● Recuperação de desastres e tolerância a falhas
● Tomada de decisões relacionadas à conformidade e à disponibilidade de ACID (atomicidade, consistência, isolamento e durabilidade)
● Validação de dados
1.3 Projetar pensando na flexibilidade e portabilidade. Inclui as seguintes considerações:
● Mapeamento de requisitos de negócios atuais e futuros para a arquitetura
● Projeto com foco em portabilidade de dados e aplicativos (por exemplo, várias nuvens e requisitos de residência de dados)
● Preparação, catalogação e descoberta de dados (governança de dados)
1.4 Projetar migrações de dados. Inclui as seguintes considerações:
● Analisar necessidades, usuários, processos e tecnologias atuais das partes interessadas e criar um plano para atingir o estado desejado
● Planejar a migração para o Google Cloud (por exemplo, serviço de transferência de dados do BigQuery, Database Migration Service, Transfer Appliance, rede do Google Cloud e Datastream)
● Projetar a estratégia de validação da migração
● Projetar a arquitetura do projeto, do conjunto de dados e da tabela para garantir uma governança de dados adequada
Seção 2: ingerir e processar dados (cerca de 25% do exame)
2.1 Planejar os pipelines de dados. As considerações incluem:
● Definir coletores e fontes de dados
● Definir a lógica de transformação de dados
● Princípios básicos de rede
● Criptografia de dados
2.2 Criação de pipelines. Inclui as seguintes considerações:
● Limpeza de dados
● Identificar os serviços (por exemplo, Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, ecossistema Hadoop e Apache Kafka)
● Transformações
○ Lote
○ Streaming (por exemplo, janelamento e dados de chegada tardia)
○ Linguagem
○ Ingestão de dado ad hoc (pipeline único ou automatizado)
● Aquisição e importação de dados
● Integração com novas fontes de dados
2.3 Implantar e operacionalizar pipelines. Inclui as seguintes considerações:
● Automação e orquestração de jobs (por exemplo, Cloud Composer e Workflows)
● CI/CD (integração contínua e implantação contínua)
Seção 3: armazenar dados (aproximadamente 20% do exame)
3.1 Seleção de sistemas de armazenamento. Inclui as seguintes considerações:
● Análise de padrões de acesso aos dados
● Escolha de serviços gerenciados (por exemplo, Bigtable, Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)
● Planejamento do custo e do desempenho do armazenamento
● Gerenciamento do ciclo de vida dos dados
3.2 Planejar o uso de um data warehouse. As considerações incluem:
● Projetar o modelo de dados
● Decidir o grau de normalização dos dados
● Mapeamento de requisitos comerciais
● Definir a arquitetura para oferecer suporte a padrões de acesso aos dados
3.3 Uso de um data lake. Inclui as seguintes considerações:
● Gerenciamento do lake (configuração de descoberta de dados, acesso e controles de custo)
● Processamento dos dados
● Monitoramento do data lake
3.4 Projetar para uma malha de dados. Inclui as seguintes considerações:
● Criar uma malha de dados com base nos requisitos usando ferramentas do Google Cloud (por exemplo, Dataplex, Data Catalog, BigQuery e Cloud Storage)
● Segmentação de dados para uso de equipe distribuído
● Criar um modelo de governança federado para sistemas de dados distribuídos
Seção 4: preparar e usar dados para análise (aproximadamente 15% do exame)
4.1 Preparação de dados para visualização. As considerações incluem:
● Conexão com ferramentas
● Pré-calcular os campos
● Visualizações materializadas do BigQuery (lógica de visualização)
● Determinação da granularidade dos dados de tempo
● Solução de problemas de consultas com baixo desempenho
● Identity and Access Management (IAM) e Cloud Data Loss Prevention (Cloud DLP)
4.2 Compartilhar dados. Inclui as seguintes considerações:
● Definir regras para compartilhar dados
● Publicação de conjuntos de dados
● Publicação de relatórios e visualizações
● Analytics Hub
4.3 Explorar e analisar dados. As considerações incluem:
● Preparar dados para a engenharia de atributos (treinar e disponibilizar modelos de machine learning)
● Realizar descoberta de dados
Seção 5: manter e automatizar cargas de trabalho de dados (aproximadamente 18% do exame)
5.1 Otimizar recursos. Inclui as seguintes considerações:
● Minimizar os custos de acordo com a necessidade comercial necessária com relação aos dados
● Garantir que recursos suficientes estejam disponíveis para processos de dados críticos para os negócios
● Decidir entre clusters de dados persistentes ou baseados em jobs (por exemplo, Dataproc)
5.2 Projetar automação e capacidade de repetição. Inclui as seguintes considerações:
● Criar gráficos acíclicos dirigidos (DAGs) para o Cloud Composer;
● Programação de jobs de maneira repetível
5.3 Organizar cargas de trabalho com base nos requisitos comerciais. Inclui as seguintes considerações:
● Preços de slots flexíveis, sob demanda e com taxa fixa (índice de flexibilidade ou capacidade fixa)
● Jobs de consulta interativa ou em lote
5.4 Processos de monitoramento e solução de problemas. Inclui as seguintes considerações:
● Observabilidade dos processos de dados (por exemplo, Cloud Monitoring, Cloud Logging e painel de administração do BigQuery)
● Monitoramento do uso planejado
● Solução de problemas de mensagens de erro, problemas de faturamento e cotas
● Gerencie cargas de trabalho, como jobs, consultas e capacidade de computação (reservas).
5.5 Manter a conscientização sobre falhas e reduzir os impactos Inclui as seguintes considerações:
● Projetar um sistema de tolerância a falhas e gerenciamento de reinicializações
● Executar jobs em várias regiões ou zonas
● Preparação para dados corrompidos e ausentes
● Replicação de dados e failover (por exemplo, Cloud SQL e clusters do Redis)