Como instalar o SDK do Apache Beam

Nesta página, você verá como instalar o SDK do Apache Beam (em inglês) para que você possa executar seus pipelines no Dataflow.

Aviso de suspensão de uso do SDK do Dataflow: o SDK 2.5.0 do Dataflow é a última versão desse SDK separada das versões do SDK do Apache Beam. O serviço Dataflow é totalmente compatível com versões oficiais do SDK do Apache Beam. Consulte a página de suporte do Dataflow para o status de suporte de vários SDKs.

Como instalar versões do SDK

O SDK do Apache Beam é um modelo de programação de código aberto para pipelines de dados. Esses pipelines são definidos usando um programa do Apache Beam, e é possível escolher um executor, como o Dataflow, para executar o pipeline. Para informações sobre como configurar seu projeto do Google Cloud e o ambiente de desenvolvimento para usar o Dataflow, siga um dos guias de início rápido.

Java

A versão mais recente do SDK do Apache Beam para Java é a 2.28.0. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.

Para fazer o download do SDK do Apache Beam para Java usando o Maven, utilize um dos artefatos lançados no Repositório central do Maven.

Adicione uma dependência ao arquivo pom.xml para o artefato do SDK da seguinte maneira:

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.28.0</version>
  </dependency>
  

Python

A versão mais recente do SDK do Apache Beam para Python é a 2.280. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.

Para fazer o download do SDK do Apache Beam para Python, use um dos pacotes lançados no Índice de pacotes do Python.

Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando em um ambiente virtual:

pip install apache-beam[gcp]

Para atualizar uma instalação atual do apache-beam, use a sinalização --upgrade:

pip install --upgrade apache-beam[gcp]

A partir de 7 de outubro de 2020, o Dataflow não será mais compatível com os pipelines do Python 2. Leia mais informações na página de suporte do Python 2 no Google Cloud.

Código-fonte e exemplos

O código-fonte do Apache Beam está disponível no repositório do Apache Beam (em inglês) no GitHub.

Java

Há amostras de código disponíveis no repositório de exemplos do Apache Beam no GitHub (em inglês).

Python

Há amostras de código disponíveis no repositório de exemplos do Apache Beam no GitHub (em inglês).

Mais ferramentas

Java

O Dataflow integra-se à ferramenta de linha de comando gcloud do SDK do Cloud. Para instruções sobre como instalar a interface da linha de comando do Dataflow, consulte esta página.

Python

O Dataflow integra-se à ferramenta de linha de comando gcloud do SDK do Cloud. Para instruções sobre como instalar a interface da linha de comando do Dataflow, consulte esta página.