Instale o SDK do Apache Beam

Esta página mostra-lhe como instalar o SDK Apache Beam para poder executar os seus pipelines no serviço Dataflow.

Instale lançamentos do SDK

O SDK Apache Beam é um modelo de programação de código aberto para pipelines de dados. Define estes pipelines com um programa Apache Beam e pode escolher um executor, como o Dataflow, para executar o pipeline.

Java

A versão mais recente lançada do SDK do Apache Beam para Java é a 2.67.0. Consulte o anúncio de lançamento para ver informações sobre as alterações incluídas no lançamento.

Para obter o SDK Apache Beam para Java através do Maven, use um dos artefactos lançados do repositório central do Maven.

Adicione dependências e ferramentas de gestão de dependências ao ficheiro pom.xml do artefacto do SDK. Para ver detalhes, consulte o artigo Faça a gestão das dependências de pipelines no Dataflow.

Para mais informações sobre as dependências do SDK do Apache Beam para Java, consulte Dependências do SDK do Apache Beam para Java e Gerir dependências do Beam em Java na documentação do Apache Beam.

Python

A versão mais recente lançada do SDK do Apache Beam para Python é 2.67.0. Consulte o anúncio de lançamento para ver informações sobre as alterações incluídas no lançamento.

Para obter o SDK Apache Beam para Python, use um dos pacotes lançados do Python Package Index.

Instale o Python wheel executando o seguinte comando:

pip install wheel

Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando a partir de um ambiente virtual:

pip install 'apache-beam[gcp]'

Consoante a ligação, a instalação pode demorar algum tempo.

Para atualizar uma instalação existente do apache-beam, use a flag --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Go

A versão mais recente lançada do SDK do Apache Beam para Go é a 2.67.0. Consulte o anúncio de lançamento para ver informações sobre as alterações incluídas no lançamento.

Para instalar a versão mais recente do SDK do Apache Beam para Go, execute o seguinte comando:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Configure o ambiente de programação

Para obter informações sobre a configuração do seu projeto da Google Cloud Platform e ambiente de desenvolvimento para usar o Dataflow, siga um dos tutoriais:

Código fonte e exemplos

O código fonte do Apache Beam está disponível no repositório do Apache Beam no GitHub.

Java

Estão disponíveis exemplos de código no diretório de exemplos do Apache Beam no GitHub.

Python

Estão disponíveis exemplos de código no diretório de exemplos do Apache Beam no GitHub.

Go

Estão disponíveis exemplos de código no diretório de exemplos do Apache Beam no GitHub.

Encontre a versão do SDK do Dataflow

Os detalhes da instalação dependem do seu ambiente de desenvolvimento. Se estiver a usar o Maven, pode ter várias versões do SDK do Dataflow "instaladas" num ou mais repositórios Maven locais.

Java

Para saber que versão do SDK Dataflow uma determinada pipeline está a executar, pode consultar o resultado da consola quando executar com DataflowPipelineRunner ou BlockingDataflowPipelineRunner. A consola contém uma mensagem semelhante à seguinte, que contém as informações da versão do SDK do Dataflow:

Python

Para saber que versão do SDK Dataflow um determinado pipeline está a executar, pode consultar o resultado da consola quando executar com DataflowRunner. A consola contém uma mensagem semelhante à seguinte, que contém as informações da versão do SDK do Dataflow:

Go

Para saber que versão do SDK Dataflow um determinado pipeline está a executar, pode consultar o resultado da consola quando executar com DataflowRunner. A consola contém uma mensagem semelhante à seguinte, que contém as informações da versão do SDK do Dataflow:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

O que se segue?