Usar o Apache Beam para criar pipelines

O Dataflow é baseado no projeto de código aberto Apache Beam. Você pode usar o SDK do Apache Beam para criar pipelines para o Dataflow. Neste documento, listamos alguns recursos para começar a usar a programação do Apache Beam.

  • Instalar o SDK do Apache Beam: mostra como instalar o SDK do Apache Beam para executar pipelines no serviço do Dataflow.

  • Guia de programação do Apache Beam: fornece orientações sobre o uso das classes do SDK do Apache Beam para criar e testar o pipeline.

  • Tour do Apache Beam: um guia de aprendizado para se familiarizar com o Apache Beam. As unidades de aprendizagem são acompanhadas por exemplos de código que você pode executar e modificar.

  • Apache Beam Playground: um ambiente interativo para testar transformações e exemplos do Apache Beam sem precisar instalar o Apache Beam no seu ambiente.

No site do Apache Beam, também é possível encontrar informações sobre como projetar, criar e testar o pipeline:

  • Projetar o pipeline: mostra como determinar a estrutura do pipeline, como escolher as transformações que serão aplicadas aos dados e como determinar os métodos de entrada e de saída.

  • Criar o pipeline: explica a mecânica de uso das classes nos SDKs do Apache Beam e as etapas necessárias para criar um pipeline.

  • Testar o pipeline: apresenta as práticas recomendadas para testar os pipelines.

Use os seguintes exemplos do GitHub do Apache Beam para começar a criar um pipeline de streaming: