Criar pipelines do Dataflow

Esta página descreve as diferentes maneiras de criar pipelines para o Dataflow e as vantagens de cada método.

Modelos fornecidos pelo Google

O Google oferece modelos de código aberto para dezenas de pipelines do Dataflow pré-criados. É possível executar esses modelos no consoleGoogle Cloud ou na linha de comando. Alguns modelos permitem adicionar uma função definida pelo usuário (UDF) para transformar os dados antes de gravar no destino de saída.

Considere usar um modelo se houver um que corresponda ao seu cenário. Para uma lista completa, consulte Modelos fornecidos pelo Google.

Criador de jobs

O criador de jobs é uma UI visual para criar e executar pipelines do Dataflow no console Google Cloud , sem escrever códigos. No criador de jobs, crie um pipeline selecionando origens, coletores e transformações e conectando-os para formar um gráfico. O criador de jobs também permite salvar e carregar seus pipelines como arquivos YAML.

Considere o criador de jobs para os seguintes cenários:

  • Crie pipelines personalizados quando um modelo fornecido pelo Google não corresponder ao seu cenário.
  • Crie pipelines sem programação.
  • Crie pipelines com várias origens ou destinos.
  • Crie protótipos rápidos.

Para mais informações, consulte Visão UI do criador de jobs.

O criador de jobs aceita um subconjunto das origens e coletores disponíveis no Apache Beam. Se você precisar de um que não seja compatível com o criador de jobs, tente um modelo fornecido pelo Google ou use o SDK do Apache Beam.

SDK do Apache Beam

Os pipelines do Dataflow são criados com o SDK do Apache Beam de código aberto. Ao usar o SDK para escrever seu pipeline, você aproveita todo o poder do Apache Beam para suas cargas de trabalho. Os pipelines podem ser escritos em Java, Python ou Go.

Considere usar o SDK do Apache Beam se não for possível alcançar seu cenário com um modelo fornecido pelo Google ou usando o criador de jobs. Exemplo:

  • Pipelines mais complexos que precisam do conjunto completo de recursos do Apache Beam.
  • Pipelines de streaming que exigem estratégias mais sofisticadas para lidar com dados atrasados, como o reprocessamento.

Para mais informações, consulte Usar o Apache Beam para criar pipelines.

Notebooks

É possível executar o código Python do Apache Beam em um notebook do JupyterLab. Esses notebooks são disponibilizados pelo Vertex AI Workbench, um serviço que hospeda VMs de notebook pré-instaladas com os frameworks mais recentes de ciência de dados e aprendizado de máquina. Com os notebooks, não é necessário configurar um ambiente de desenvolvimento, e é possível iterar rapidamente no código do pipeline. Os notebooks são executados em um ambiente de teste, mas você pode exportar o código para uso em produção.

Para mais informações, consulte Desenvolver notebooks do Apache Beam.