Nesta página, você verá como instalar o SDK do Apache Beam para poder executar pipelines no serviço Dataflow.
Instalar versões do SDK
O SDK do Apache Beam é um modelo de programação de código aberto para pipelines de dados. Esses pipelines são definidos usando um programa do Apache Beam, e é possível escolher um executor, como o Dataflow, para executar o pipeline.
Java
A versão mais recente do SDK do Apache Beam para Java é a 2.59.0. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.
Para acessar o SDK do Apache Beam para Java usando o Maven, use um dos artefatos lançados no Repositório central do Maven.
Adicione dependências e ferramentas de gerenciamento de dependências ao arquivo
pom.xml
do artefato do SDK. Para detalhes, consulte Gerenciar dependências de pipeline no Dataflow.
Para mais informações sobre dependências de SDK do Apache Beam para Java, confira Dependências de SDK do Apache Beam para Java e Como gerenciar dependências de Beam em Java na documentação do Apache Beam.
Python
A versão mais recente do SDK do Apache Beam para Python é a 2.59.0. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.
Para fazer o download do SDK do Apache Beam para Python, use um dos pacotes lançados no Índice de pacotes do Python.
Instale a roda Python do Python executando o seguinte comando:
pip install wheel
Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando em um ambiente virtual:
pip install 'apache-beam[gcp]'
Dependendo da conexão, a instalação pode levar algum tempo.
Para atualizar uma instalação atual do apache-beam, use a sinalização --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
A versão mais recente do SDK do Apache Beam para Go é a 2.59.0. Veja o anúncio de lançamento (em inglês) para informações sobre as alterações incluídas na versão.
Para instalar a versão mais recente do SDK do Apache Beam para Go, execute o seguinte comando:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configurar o ambiente de desenvolvimento
Para informações sobre como configurar seu projeto do Google Cloud e o ambiente de desenvolvimento para usar o Dataflow, siga um dos guias de início rápido.
- Criar um pipeline do Dataflow usando Java
- Criar um pipeline do Dataflow usando Python
- Criar um pipeline do Dataflow usando Go
- Criar um pipeline de streaming usando um modelo do Dataflow
Código-fonte e exemplos
O código-fonte do Apache Beam está disponível no repositório do Apache Beam (em inglês) no GitHub.
Java
Há amostras de código disponíveis no diretório de exemplos do Apache Beam no GitHub.
Python
Há amostras de código disponíveis no diretório de exemplos do Apache Beam no GitHub.
Go
Há amostras de código disponíveis no diretório de exemplos do Apache Beam no GitHub.
Encontrar a versão do SDK do Dataflow
Os detalhes da instalação dependem do ambiente de desenvolvimento. Se você está usando o Maven, pode ter várias versões de SDK do Dataflow "instaladas" em um ou mais repositórios locais do Maven.
Java
Para descobrir qual versão do SDK do Dataflow um determinado pipeline está executando, observe a
saída do console ao executar com DataflowPipelineRunner
ou
BlockingDataflowPipelineRunner
. O console contém uma mensagem como
esta, com informações de versão do SDK do Dataflow:
Python
Para descobrir qual versão do SDK do Dataflow um determinado pipeline está executando, é possível
analisar a saída do console ao executar com DataflowRunner
. O console contém uma mensagem como esta, com informações de versão do SDK do Dataflow:
Go
Para descobrir qual versão do SDK do Dataflow um determinado pipeline está executando, é possível
analisar a saída do console ao executar com DataflowRunner
. O console contém uma mensagem como esta, com informações de versão do SDK do Dataflow:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
A seguir
- O Dataflow se integra à Google Cloud CLI. Veja instruções sobre como instalar a interface de linha de comando do Dataflow em Como usar a interface de linha de comando do Dataflow.
- Para saber quais recursos do Apache Beam são compatíveis com o Dataflow, consulte a matriz de recursos do Apache Beam.