Instalar o SDK do Apache Beam

Esta página mostra como instalar o SDK do Apache Beam para que você possa executar seus pipelines no serviço Dataflow.

Aviso de suspensão de uso do SDK do Dataflow: o SDK do Dataflow 2.5.0 é a última versão do SDK do Dataflow separada das versões do SDK do Apache Beam. O serviço do Dataflow é totalmente compatível com as versões oficiais do SDK do Apache Beam O serviço Dataflow também é compatível com SDKs do Apache Beam lançados anteriormente, começando com a versão 2.0.0 e superior. Consulte a página de suporte do Dataflow para mais informações sobre o status de suporte dos diversos SDKs.

Como instalar versões do SDK

O SDK do Apache Beam é um modelo de programação de código aberto para pipelines de dados. Esses pipelines são definidos usando um programa do Apache Beam, e é possível escolher um executor, como o Dataflow, para executar o pipeline. Para receber informações sobre como configurar seu projeto do Google Cloud e o ambiente de desenvolvimento para usar o Dataflow, siga um dos guias de início rápido.

Java

A versão mais recente do SDK do Apache Beam para Java é a 2.19.0. Veja o anúncio de lançamento para informações sobre as alterações incluídas na versão.

Para fazer o download do SDK do Apache Beam para Java usando o Maven, utilize um dos artefatos lançados no Repositório central do Maven.

Adicione uma dependência ao arquivo pom.xml e especifique um intervalo de versões para o artefato do SDK da seguinte maneira:

      <dependency>
      <groupId>org.apache.beam</groupId>
      <artifactId>beam-sdks-java-core</artifactId>
      <version>[2.19.0, 2.99)</version>
      </dependency>
      

Python

A versão mais recente do SDK do Apache Beam para Python é a 2.19.0. Veja o anúncio de lançamento para informações sobre as alterações incluídas na versão.

Em 7 de outubro de 2020, o Dataflow deixará de oferecer suporte a pipelines usando o Python 2. Leia mais informações na página de suporte do Python 2 no Google Cloud.

Para fazer o download do SDK do Apache Beam para Python, use um dos pacotes lançados no Índice de pacotes do Python.

Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando em um ambiente virtual:

pip install apache-beam[gcp]

Para atualizar uma instalação atual do apache-beam, use a sinalização --upgrade:

pip install --upgrade apache-beam[gcp]

Código-fonte e exemplos

O código-fonte do Apache Beam está disponível no repositório do Apache Beam no GitHub.

Java

Há amostras de código disponíveis no repositório de exemplos do Apache Beam no GitHub.

Python

Há amostras de código disponíveis no repositório de exemplos do Apache Beam no GitHub.

Mais ferramentas

Java

O Dataflow se integra a ferramenta de linha de comando gcloud do SDK do Cloud . Para receber instruções sobre como instalar a interface da linha de comando do Dataflow, consulte Como usar a interface de linha de comando do Dataflow.

O Tools for Eclipse inclui um plug-in para ajudar a criar projetos e pipelines do Dataflow usando o ambiente de desenvolvimento integrado do Eclipse. Para receber instruções sobre como instalar o plug-in do Tools for Eclipse, consulte o guia de início rápido sobre como usar o Java e o Eclipse.

Python

O Dataflow se integra a ferramenta de linha de comando gcloud do SDK do Cloud . Consulte Como usar a interface de linha de comando do Dataflow para instruções sobre a instalação da interface.