Esta página mostra-lhe como instalar o SDK Apache Beam para poder executar os seus pipelines no serviço Dataflow.
Instale lançamentos do SDK
O SDK Apache Beam é um modelo de programação de código aberto para pipelines de dados. Define estes pipelines com um programa Apache Beam e pode escolher um executor, como o Dataflow, para executar o pipeline.
Java
A versão mais recente lançada do SDK do Apache Beam para Java é a 2.67.0. Consulte o anúncio de lançamento para ver informações sobre as alterações incluídas no lançamento.
Para obter o SDK Apache Beam para Java através do Maven, use um dos artefactos lançados do repositório central do Maven.
Adicione dependências e ferramentas de gestão de dependências ao ficheiro pom.xml
do artefacto do SDK. Para ver detalhes, consulte o artigo
Faça a gestão das dependências de pipelines no Dataflow.
Para mais informações sobre as dependências do SDK do Apache Beam para Java, consulte Dependências do SDK do Apache Beam para Java e Gerir dependências do Beam em Java na documentação do Apache Beam.
Python
A versão mais recente lançada do SDK do Apache Beam para Python é 2.67.0. Consulte o anúncio de lançamento para ver informações sobre as alterações incluídas no lançamento.
Para obter o SDK Apache Beam para Python, use um dos pacotes lançados do Python Package Index.
Instale o Python wheel executando o seguinte comando:
pip install wheel
Instale a versão mais recente do SDK do Apache Beam para Python executando o seguinte comando a partir de um ambiente virtual:
pip install 'apache-beam[gcp]'
Consoante a ligação, a instalação pode demorar algum tempo.
Para atualizar uma instalação existente do apache-beam, use a flag --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
A versão mais recente lançada do SDK do Apache Beam para Go é a 2.67.0. Consulte o anúncio de lançamento para ver informações sobre as alterações incluídas no lançamento.
Para instalar a versão mais recente do SDK do Apache Beam para Go, execute o seguinte comando:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configure o ambiente de programação
Para obter informações sobre a configuração do seu projeto da Google Cloud Platform e ambiente de desenvolvimento para usar o Dataflow, siga um dos tutoriais:
- Crie um pipeline do Dataflow com Java
- Crie um pipeline do Dataflow com o Python
- Crie um pipeline do Dataflow com o Go
Código fonte e exemplos
O código fonte do Apache Beam está disponível no repositório do Apache Beam no GitHub.
Java
Estão disponíveis exemplos de código no diretório de exemplos do Apache Beam no GitHub.
Python
Estão disponíveis exemplos de código no diretório de exemplos do Apache Beam no GitHub.
Go
Estão disponíveis exemplos de código no diretório de exemplos do Apache Beam no GitHub.
Encontre a versão do SDK do Dataflow
Os detalhes da instalação dependem do seu ambiente de desenvolvimento. Se estiver a usar o Maven, pode ter várias versões do SDK do Dataflow "instaladas" num ou mais repositórios Maven locais.
Java
Para saber que versão do SDK Dataflow uma determinada pipeline está a executar, pode consultar o resultado da consola quando executar com DataflowPipelineRunner
ou BlockingDataflowPipelineRunner
. A consola contém uma mensagem semelhante à seguinte, que contém as informações da versão do SDK do Dataflow:
Python
Para saber que versão do SDK Dataflow um determinado pipeline está a executar, pode consultar o resultado da consola quando executar com DataflowRunner
. A consola contém uma mensagem semelhante à seguinte, que contém as informações da versão do SDK do Dataflow:
Go
Para saber que versão do SDK Dataflow um determinado pipeline está a executar, pode consultar o resultado da consola quando executar com DataflowRunner
. A consola contém uma mensagem semelhante à seguinte, que contém as informações da versão do SDK do Dataflow:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
O que se segue?
- O Dataflow integra-se com a CLI do Google Cloud. Para obter instruções sobre a instalação da interface de linhas de comando do Dataflow, consulte o artigo Usar a interface de linhas de comando do Dataflow.
- Para saber que capacidades do Apache Beam o Dataflow suporta, reveja a matriz de capacidades do Apache Beam.