Como instalar o SDK do Apache Beam

Nesta página, você verá como instalar o SDK do Apache Beam para poder executar pipelines no serviço Dataflow.

Como instalar versões do SDK

O SDK do Apache Beam é um modelo de programação de código aberto para pipelines de dados. Esses pipelines são definidos usando um programa do Apache Beam, e é possível escolher um executor, como o Dataflow, para executar o pipeline. Para informações sobre como configurar seu projeto do Google Cloud e o ambiente de desenvolvimento para usar o Dataflow, siga um dos guias de início rápido.

Java

A versão mais recente do SDK do Apache Beam para Java é a 2.31.0. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.

Para fazer o download do SDK do Apache Beam para Java usando o Maven, utilize um dos artefatos lançados no Repositório central do Maven.

Adicione uma dependência ao arquivo pom.xml para o artefato do SDK da seguinte maneira:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.31.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>2.31.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>2.31.0</version>
</dependency>

Python

A versão mais recente do SDK do Apache Beam para Python é a 2.31.0. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.

Para fazer o download do SDK do Apache Beam para Python, use um dos pacotes lançados no Índice de pacotes do Python.

Instale a roda Python do Python executando o seguinte comando:

pip install wheel

Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando em um ambiente virtual:

pip install 'apache-beam[gcp]'

Dependendo da conexão, a instalação pode levar algum tempo.

Para atualizar uma instalação atual do apache-beam, use a sinalização --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Código-fonte e exemplos

O código-fonte do Apache Beam está disponível no repositório do Apache Beam (em inglês) no GitHub.

Java

Há amostras de código disponíveis no repositório de exemplos do Apache Beam no GitHub (em inglês).

Python

Há amostras de código disponíveis no repositório de exemplos do Apache Beam (em inglês) no GitHub.

Mais ferramentas

O Dataflow integra-se à ferramenta de linha de comando gcloud do SDK do Cloud. Para instruções sobre como instalar a interface da linha de comando do Dataflow, consulte esta página.