Esta página descreve as diferentes formas de criar pipelines para o Dataflow e as vantagens de cada método.
Modelos fornecidos pela Google
A Google fornece modelos de código aberto para dezenas de pipelines do Dataflow pré-criados. Pode executar estes modelos a partir da Google Cloud consola ou da linha de comandos. Alguns modelos suportam a adição de uma função definida pelo utilizador (UDF), para que possa transformar os dados antes de os escrever no destino de saída.
Considere usar um modelo se existir um que corresponda ao seu cenário. Para ver uma lista completa, consulte os modelos fornecidos pela Google.
Criador de tarefas
O criador de tarefas é uma IU visual para criar e executar pipelines do Dataflow na Google Cloud consola, sem escrever código. No criador de tarefas, cria um pipeline selecionando origens, destinos e transformações, e associando-os para formar um gráfico. O criador de tarefas também lhe permite guardar e carregar os seus pipelines como ficheiros YAML.
Considere o criador de tarefas para os seguintes cenários:
- Crie pipelines personalizados quando um modelo fornecido pela Google não corresponder ao seu cenário.
- Crie pipelines sem programação.
- Crie pipelines com várias origens ou destinos.
- Crie protótipos rápidos.
Para mais informações, consulte a Vista geral da IU do criador de tarefas.
O criador de tarefas suporta um subconjunto das origens e dos destinos disponíveis no Apache Beam. Se precisar de um que não seja suportado no criador de tarefas, experimente um modelo fornecido pela Google ou use o SDK Apache Beam.
SDK Apache Beam
Os pipelines do Dataflow são criados com o SDK Apache Beam de código aberto. Ao usar o SDK para escrever o seu pipeline, tem acesso a todas as capacidades do Apache Beam para as suas cargas de trabalho. Os pipelines podem ser escritos em Java, Python ou Go.
Considere usar o SDK Apache Beam se não conseguir alcançar o seu cenário com um modelo fornecido pela Google ou usando o criador de tarefas. Por exemplo:
- Pipelines mais complexos que precisam do conjunto completo de funcionalidades do Apache Beam.
- Pipelines de streaming que requerem estratégias mais sofisticadas para processar dados tardios, como o reprocessamento.
Para mais informações, consulte o artigo Use o Apache Beam para criar pipelines.
Blocos de notas
Pode executar código Python do Apache Beam num bloco de notas do JupyterLab. Estes blocos de notas estão disponíveis através do Vertex AI Workbench, um serviço que aloja VMs de blocos de notas pré-instaladas com as mais recentes estruturas de ciência de dados e aprendizagem automática. Com os blocos de notas, não precisa de configurar um ambiente de desenvolvimento e pode iterar rapidamente no código do pipeline. Os blocos de notas são executados num ambiente de teste, mas pode exportar o código para utilização em produção.
Para mais informações, consulte o artigo Desenvolva blocos de notas do Apache Beam.