Etapa
2
Data Engineering on Google Cloud Platform
Neste curso de quatro dias com instrutor, os participantes terão uma introdução prática sobre como projetar e criar sistemas de processamento de dados no Google Cloud Platform.
Duração: 4 dias

Descrição do curso

Neste curso de quatro dias com instrutor, os participantes terão uma introdução prática sobre como projetar e criar sistemas de processamento de dados no Google Cloud Platform. Por meio de uma combinação de apresentações, demonstrações e laboratórios práticos, os participantes aprenderão como projetar sistemas de processamento de dados, criar canais de dados completos, analisar dados e realizar machine learning. Neste curso, abordamos dados estruturados, não estruturados e de streaming.

Duração

4 dias

Objetivos

Neste curso, os participantes aprenderão as seguintes habilidades:

  • Projetar e criar sistemas de processamento de dados no Google Cloud Platform.
  • Processar dados em lote e streaming, implementando canais de dados de escalonamento automático no Cloud Dataflow.
  • Derivar insights de negócios a partir de conjuntos de dados extremamente grandes usando o Google BigQuery.
  • Treinar, avaliar e prever com modelos de machine learning usando TensorFlow e Cloud ML.
  • Aproveitar dados não estruturados com as APIs do Spark e de machine learning no Cloud Dataproc.
  • Proporcionar insights instantâneos a partir de dados de streaming.

Método de realização

Com instrutor, online com instrutor

Público-alvo

Esta aula destina-se a desenvolvedores experientes responsáveis pelo gerenciamento de transformações de Big Data, incluindo:

  • extrair, carregar, transformar, limpar e validar dados;
  • projetar canais e arquiteturas para processamento de dados;
  • criar e manter modelos de machine learning e modelos estatísticos;
  • consultar conjuntos de dados, visualizar resultados de consulta e criar relatórios.

Pré-requisitos

Para aproveitar ao máximo este curso, os participantes precisam atender aos seguintes critérios:

  • curso Google Cloud Fundamentals: Big Data & Machine Learning concluído OU experiência equivalente
  • proficiência básica em linguagem de consulta comum, como SQL
  • experiência com atividades de modelagem de dados, extração, transformação e carga
  • desenvolvimento de aplicativos com linguagem de programação comum, como Python
  • familiaridade com Machine Learning e/ou estatísticas
Resumo do curso

O curso inclui apresentações, demonstrações e laboratórios práticos.

Como aproveitar dados não estruturados com o Cloud Dataproc no Google Cloud Platform (também disponível sob demanda)

  • Criação e gerenciamento de clusters
  • Aproveitamento dos tipos de máquina personalizados e nós de trabalho preemptivos
  • Escalonamento e exclusão de clusters
  • Laboratório: Como criar clusters do Hadoop com o Google Cloud Dataproc
  • Execução de jobs de Pig e Hive
  • Separação de armazenamento e computação
  • Laboratório: Como executar jobs do Hadoop e do Spark com o Dataproc
  • Laboratório: Enviar e monitorar jobs
  • Personalização de clusters com ações de inicialização
  • Suporte ao BigQuery
  • Laboratório: Como aproveitar os serviços do Google Cloud Platform
  • APIs de Machine Learning do Google
  • Casos de uso comuns de ML
  • Invocação de APIs de ML
  • Laboratório: Como adicionar recursos de Machine Learning à análise de Big Data

Análise de dados sem servidor com o Google BigQuery e o Cloud Dataflow (também disponível sob demanda)

  • O que é o BigQuery
  • Consultas e funções
  • Laboratório: Como escrever consultas no BigQuery
  • Carregamento de dados no BigQuery
  • Exportação de dados do BigQuery
  • Laboratório: Como carregar e exportar dados
  • Campos aninhados e repetidos
  • Consulta de várias tabelas
  • Laboratório: Consultas complexas
  • Desempenho e preços
  • O modelo de programação Beam
  • Canais de dados no Beam Python
  • Canais de dados no Beam Java
  • Laboratório: Como escrever um canal do Dataflow
  • Processamento escalonável de Big Data com o Beam
  • Laboratório: MapReduce no Dataflow
  • Incorporação de dados adicionais
  • Laboratório: Entradas secundárias
  • Processamento de dados de streaming
  • Arquitetura de referência do GCP

Machine Learning sem servidor com o TensorFlow no Google Cloud Platform (também disponível sob demanda)

  • O que é machine learning (ML)
  • ML eficaz: conceitos, tipos
  • Conjuntos de dados de ML: generalização
  • Laboratório: Explorar e criar conjuntos de dados de ML
  • Primeiros passos com o TensorFlow
  • Laboratório: Como usar o tf.learn.
  • Gráficos e loops do TensorFlow + laboratório
  • Laboratório: Como usar o TensorFlow de baixo nível + parada antecipada
  • Monitoração do treinamento de ML
  • Laboratório: Tabelas e gráficos de treinamento do TensorFlow
  • Por que usar o Cloud ML?
  • Empacotamento de um modelo do TensorFlow
  • Treinamento completo
  • Laboratório: Executar um modelo de ML localmente e na nuvem
  • Criação de atributos ideais
  • Transformação de entradas
  • Atributos sintéticos
  • Pré-processamento com o Cloud ML
  • Laboratório: Engenharia de atributos

Como criar sistemas de streaming resilientes no Google Cloud Platform (também disponível sob demanda)

  • Processamento de dados em streaming: desafios
  • Processamento de volumes de dados variáveis
  • Processamento de dados não ordenados/atrasados
  • Laboratório: Como criar canais de streaming
  • O que é o Cloud Pub/Sub?
  • Como funciona: tópicos e assinaturas
  • Laboratório: Simulador
  • Desafios no processamento de streaming
  • Processamento de dados atrasados: marcas d'água, acionadores, acumulação
  • Laboratório: Canal de processamento de dados de streaming para dados de trânsito em tempo real
  • Análise de streaming: de dados a decisões
  • Consulta a dados de streaming com o BigQuery
  • O que é o Google Data Studio?
  • Laboratório: Criar um painel em tempo real para visualizar dados processados
  • O que é o Cloud Spanner?
  • Criação de esquemas do Bigtable
  • Como processar no Bigtable
  • Laboratório: como fazer streaming no Bigtable