Para começar com o Dataflow

O serviço do Dataflow executa pipelines definidos pelo SDK do Apache Beam. No entanto, para muitos casos de uso, não é necessário escrever código com o SDK, porque o Dataflow oferece várias opções sem código e com pouco código.

  • Modelos. O Dataflow oferece modelos pré-criados para mover dados de um produto para outro. Por exemplo, é possível usar um modelo para mover dados do Pub/Sub para o BigQuery.

  • Criador de jobs. O criador de jobs é uma UI visual para criar pipelines do Dataflow no consoleGoogle Cloud . Ele é compatível com um subconjunto de origens e destinos do Apache Beam, além de transformações como junções, funções do Python e consultas SQL. Recomendamos o criador de jobs para casos de uso simples, como movimentação de dados.

  • Transformações prontas para uso para ML. Para pipelines de machine learning (ML), o Dataflow oferece transformações prontas para uso que exigem um mínimo de código para configuração. Para começar, execute um notebook de exemplo de ML no Google Colab. Para saber mais, consulte a visão geral do Dataflow ML.

  • SDK do Apache Beam. Para aproveitar todo o poder do Apache Beam, use o SDK para escrever um pipeline personalizado em Python, Java ou Go.

Para ajudar na sua decisão, a tabela a seguir lista alguns exemplos comuns.

O que você quer fazer? Abordagem recomendada
Mova dados de uma origem para um coletor, sem lógica personalizada.

Criador de jobs ou modelo

Recomendamos começar com o criador de jobs. Se o criador de jobs não for compatível com seu caso de uso, verifique se há um modelo para ele.

Mova dados de uma origem para um destino e aplique lógica personalizada usando funções do Python ou SQL. Criador de jobs
Usar um modelo de ML no meu pipeline ou preparar meus dados para treinamento ou inferência. Transformações prontas para uso da ML do Dataflow
Escrever um pipeline que exija recursos mais avançados do Apache Beam. SDK do Apache Beam para Java, Python ou Go

A seguir