Installa l'SDK Apache Beam

Questa pagina mostra come installare l'SDK Apache Beam per che puoi eseguire le tue pipeline nel servizio Dataflow.

Installare le release dell'SDK

L'SDK Apache Beam è un modello di programmazione open source per le pipeline di dati. Sei tu a definire queste impostazioni pipeline con un programma Apache Beam e può scegliere un runner, Dataflow, per eseguire la pipeline.

Java

L'ultima versione rilasciata dell'SDK Apache Beam per Java è 2.57.0. Visualizza la release per informazioni sulle modifiche incluse nella release.

Per utilizzare Maven per l'SDK Apache Beam per Java, utilizza uno dei gli artefatti rilasciati Repository centrale di Maven.

Aggiungi le dipendenze e gli strumenti di gestione delle dipendenze pom.xml per l'artefatto dell'SDK. Per maggiori dettagli, vedi Gestire le dipendenze della pipeline in Dataflow.

Per ulteriori informazioni sull'SDK Apache Beam per le dipendenze Java, vedi SDK Apache Beam per le dipendenze Java e Gestione delle dipendenze Beam in Java nella documentazione di Apache Beam.

Python

L'ultima versione rilasciata dell'SDK Apache Beam per Python è 2.57.0. Visualizza la release per informazioni sulle modifiche incluse nella release.

Per ottenere l'SDK Apache Beam per Python, utilizza uno dei deployment di pacchetti da Indice pacchetti Python.

Installa la ruota Python eseguendo questo comando:

pip install wheel

Installa la versione più recente dell'SDK Apache Beam per Python eseguendo il comando il seguente comando da un ambiente virtuale:

pip install 'apache-beam[gcp]'

A seconda della connessione, l'installazione potrebbe richiedere del tempo.

Per eseguire l'upgrade di un'installazione esistente di apache-beam, usa il flag --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Vai

L'ultima versione rilasciata dell'SDK Apache Beam for Go è 2.57.0. Visualizza la release per informazioni sulle modifiche incluse nella release.

Per installare la versione più recente dell'SDK Apache Beam per Go, esegui il comando il seguente comando:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Configurazione dell'ambiente di sviluppo

Per informazioni sull'impostazione il tuo progetto e l'ambiente di sviluppo di Google Cloud per utilizzare Dataflow, segui una delle guide rapide:

Codice sorgente ed esempi

Il codice sorgente di Apache Beam è disponibile in Repository Apache Beam su GitHub.

Java

Esempi di codice sono disponibili in Apache Beam Directory di esempi su GitHub.

Python

Esempi di codice sono disponibili in Apache Beam Directory di esempi su GitHub.

Vai

Esempi di codice sono disponibili in Apache Beam Directory di esempi su GitHub.

Trova la versione dell'SDK Dataflow

I dettagli dell'installazione dipendono dall'ambiente di sviluppo. Se utilizzi Maven, puoi avere più versioni dell'SDK Dataflow "installato" in uno o più repository Maven locali.

Java

Per scoprire quale versione dell'SDK Dataflow è in esecuzione su una determinata pipeline, puoi esaminare l'output della console quando l'esecuzione avviene con DataflowPipelineRunner BlockingDataflowPipelineRunner. La console conterrà un messaggio come di seguito, che contiene le informazioni sulla versione dell'SDK Dataflow:

Python

Per scoprire quale versione dell'SDK Dataflow è in esecuzione su una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowRunner. La console conterrà un messaggio come di seguito, che contiene le informazioni sulla versione dell'SDK Dataflow:

Vai

Per scoprire quale versione dell'SDK Dataflow è in esecuzione su una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowRunner. La console conterrà un messaggio come di seguito, che contiene le informazioni sulla versione dell'SDK Dataflow:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

Passaggi successivi