Instalar o SDK do Apache Beam

Nesta página, você verá como instalar o SDK do Apache Beam para poder executar pipelines no serviço Dataflow.

Instalar versões do SDK

O SDK do Apache Beam é um modelo de programação de código aberto para pipelines de dados. Esses pipelines são definidos usando um programa do Apache Beam, e é possível escolher um executor, como o Dataflow, para executar o pipeline.

Java

A versão mais recente do SDK do Apache Beam para Java é a 2.55.0. Veja o anúncio de lançamento para informações sobre as alterações incluídas na versão.

Para acessar o SDK do Apache Beam para Java usando o Maven, use um dos artefatos lançados no Repositório central do Maven.

Adicione dependências e ferramentas de gerenciamento de dependências ao arquivo pom.xml do artefato do SDK. Para detalhes, consulte Gerenciar dependências de pipeline no Dataflow.

Para mais informações sobre dependências de SDK do Apache Beam para Java, confira Dependências de SDK do Apache Beam para Java e Como gerenciar dependências de Beam em Java na documentação do Apache Beam.

Python

A versão mais recente do SDK do Apache Beam para Python é a 2.55.0. Veja o anúncio de lançamento para informações sobre as alterações incluídas na versão.

Para fazer o download do SDK do Apache Beam para Python, use um dos pacotes lançados no Índice de pacotes do Python.

Instale a roda Python do Python executando o seguinte comando:

pip install wheel

Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando em um ambiente virtual:

pip install 'apache-beam[gcp]'

Dependendo da conexão, a instalação pode levar algum tempo.

Para atualizar uma instalação atual do apache-beam, use a sinalização --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Go

A versão mais recente do SDK do Apache Beam para Go é a 2.55.0. Veja o anúncio de lançamento para informações sobre as alterações incluídas na versão.

Para instalar a versão mais recente do SDK do Apache Beam para Go, execute o seguinte comando:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Configurar o ambiente de desenvolvimento

Para informações sobre como configurar seu projeto do Google Cloud e o ambiente de desenvolvimento para usar o Dataflow, siga um dos guias de início rápido.

Código-fonte e exemplos

O código-fonte do Apache Beam está disponível no repositório do Apache Beam (em inglês) no GitHub.

Java

Há amostras de código disponíveis no diretório de exemplos do Apache Beam no GitHub.

Python

Há amostras de código disponíveis no diretório de exemplos do Apache Beam no GitHub.

Go

Há amostras de código disponíveis no diretório de exemplos do Apache Beam no GitHub.

Encontrar a versão do SDK do Dataflow

Os detalhes da instalação dependem do ambiente de desenvolvimento. Se você está usando o Maven, pode ter várias versões de SDK do Dataflow "instaladas" em um ou mais repositórios locais do Maven.

Java

Para descobrir qual versão do SDK do Dataflow um determinado pipeline está executando, observe a saída do console ao executar com DataflowPipelineRunner ou BlockingDataflowPipelineRunner. O console contém uma mensagem como esta, com informações de versão do SDK do Dataflow:

Python

Para descobrir qual versão do SDK do Dataflow um determinado pipeline está executando, é possível analisar a saída do console ao executar com DataflowRunner. O console contém uma mensagem como esta, com informações de versão do SDK do Dataflow:

Go

Para descobrir qual versão do SDK do Dataflow um determinado pipeline está executando, é possível analisar a saída do console ao executar com DataflowRunner. O console contém uma mensagem como esta, com informações de versão do SDK do Dataflow:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

A seguir