Questa pagina mostra come installare l'SDK Apache Beam per eseguire le pipeline nel servizio Dataflow.
Installare le release dell'SDK
L'SDK Apache Beam è un modello di programmazione open source per pipeline di dati. Definisci queste pipeline con un programma Apache Beam e puoi scegliere un runner, ad esempio Dataflow, per eseguire la pipeline.
Java
L'ultima versione rilasciata dell'SDK Apache Beam per Java è 2.66.0. Per informazioni sulle modifiche incluse nella release, consulta l' annuncio della release.
Per ottenere l'SDK Apache Beam per Java utilizzando Maven, utilizza uno degli artefatti rilasciati dal Repository Maven Central.
Aggiungi dipendenze e strumenti di gestione delle dipendenze al file
pom.xml
per l'artefatto SDK. Per maggiori dettagli, vedi
Gestire le dipendenze delle pipeline in Dataflow.
Per ulteriori informazioni sulle dipendenze dell'Apache Beam SDK per Java, consulta Dipendenze dell'Apache Beam SDK per Java e Gestione delle dipendenze di Beam in Java nella documentazione di Apache Beam.
Python
L'ultima versione rilasciata dell'SDK Apache Beam per Python è 2.66.0. Per informazioni sulle modifiche incluse nella release, consulta l' annuncio della release.
Per ottenere l'SDK Apache Beam per Python, utilizza uno dei pacchetti rilasciati dall' indice dei pacchetti Python.
Installa Python wheel eseguendo il seguente comando:
pip install wheel
Installa l'ultima versione dell'SDK Apache Beam per Python eseguendo il comando seguente da un ambiente virtuale:
pip install 'apache-beam[gcp]'
A seconda della connessione, l'installazione potrebbe richiedere del tempo.
Per eseguire l'upgrade di un'installazione esistente di apache-beam, utilizza il flag --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Vai
L'ultima versione rilasciata dell'SDK Apache Beam per Go è 2.66.0. Per informazioni sulle modifiche incluse nella release, consulta l' annuncio della release.
Per installare l'ultima versione dell'SDK Apache Beam per Go, esegui questo comando:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configurazione dell'ambiente di sviluppo
Per informazioni sulla configurazione del progetto e dell'ambiente di sviluppo per utilizzare Dataflow, segui uno dei tutorial: Google Cloud
- Crea una pipeline Dataflow utilizzando Java
- Crea una pipeline Dataflow con Python
- Crea una pipeline Dataflow utilizzando Go
Codice sorgente ed esempi
Il codice sorgente di Apache Beam è disponibile nel repository Apache Beam su GitHub.
Java
Gli esempi di codice sono disponibili nella directory Examples di Apache Beam su GitHub.
Python
Gli esempi di codice sono disponibili nella directory Examples di Apache Beam su GitHub.
Vai
Gli esempi di codice sono disponibili nella directory Examples di Apache Beam su GitHub.
Trovare la versione dell'SDK Dataflow
I dettagli dell'installazione dipendono dal tuo ambiente di sviluppo. Se utilizzi Maven, puoi avere più versioni dell'SDK Dataflow "installate" in uno o più repository Maven locali.
Java
Per scoprire quale versione dell'SDK Dataflow è in esecuzione in una determinata pipeline, puoi esaminare
l'output della console quando esegui l'operazione con DataflowPipelineRunner
o
BlockingDataflowPipelineRunner
. La console conterrà un messaggio simile
al seguente, che contiene le informazioni sulla versione dell'SDK Dataflow:
Python
Per scoprire quale versione dell'SDK Dataflow è in esecuzione in una determinata pipeline, puoi esaminare
l'output della console quando esegui l'operazione con DataflowRunner
. La console conterrà un messaggio simile
al seguente, che contiene le informazioni sulla versione dell'SDK Dataflow:
Vai
Per scoprire quale versione dell'SDK Dataflow è in esecuzione in una determinata pipeline, puoi esaminare
l'output della console quando esegui l'operazione con DataflowRunner
. La console conterrà un messaggio simile
al seguente, che contiene le informazioni sulla versione dell'SDK Dataflow:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
Passaggi successivi
- Dataflow si integra con Google Cloud CLI. Per istruzioni sull'installazione dell'interfaccia a riga di comando Dataflow, vedi Utilizzo dell'interfaccia a riga di comando Dataflow.
- Per scoprire quali funzionalità di Apache Beam supporta Dataflow, consulta la matrice delle funzionalità di Apache Beam.