Questa pagina mostra come installare l'SDK Apache Beam per eseguire le pipeline sul servizio Dataflow.
Installa le release dell'SDK
L'SDK Apache Beam è un modello di programmazione open source per le pipeline di dati. Puoi definire queste pipeline con un programma Apache Beam e scegliere un runner, ad esempio Dataflow, per eseguire la pipeline.
Java
L'ultima versione rilasciata dell'SDK Apache Beam per Java è 2.56.0. Consulta l' annuncio della release per informazioni sulle modifiche incluse nella release.
Per ottenere l'SDK Apache Beam per Java utilizzando Maven, utilizza uno degli artefatti rilasciati da Maven Central Repository.
Aggiungi dipendenze e strumenti di gestione delle dipendenze al tuo
file pom.xml
per l'artefatto SDK. Per maggiori dettagli, consulta Gestire le dipendenze della pipeline in Dataflow.
Per saperne di più sull'SDK Apache Beam per le dipendenze Java, consulta la pagina relativa all'SDK Apache Beam per le dipendenze Java e alla gestione delle dipendenze Beam in Java nella documentazione di Apache Beam.
Python
L'ultima versione rilasciata dell'SDK Apache Beam per Python è 2.56.0. Consulta l' annuncio della release per informazioni sulle modifiche incluse nella release.
Per ottenere l'SDK Apache Beam per Python, utilizza uno dei pacchetti rilasciati dall' indice dei pacchetti Python.
Installa Python wheel eseguendo questo comando:
pip install wheel
Installa la versione più recente dell'SDK Apache Beam per Python eseguendo questo comando da un ambiente virtuale:
pip install 'apache-beam[gcp]'
A seconda della connessione, l'installazione potrebbe richiedere del tempo.
Per eseguire l'upgrade di un'installazione esistente di apache-beam, utilizza il flag --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
L'ultima versione rilasciata dell'SDK Apache Beam per Go è 2.56.0. Consulta l' annuncio della release per informazioni sulle modifiche incluse nella release.
Per installare la versione più recente dell'SDK Apache Beam per Go, esegui questo comando:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Configurazione dell'ambiente di sviluppo
Per informazioni sulla configurazione del progetto e dell'ambiente di sviluppo Google Cloud per l'utilizzo di Dataflow, segui una delle guide rapide:
- Crea una pipeline Dataflow utilizzando Java
- Crea una pipeline Dataflow con Python
- Crea una pipeline Dataflow utilizzando Go
- Crea una pipeline di inserimento flussi utilizzando un modello Dataflow
Codice sorgente ed esempi
Il codice sorgente di Apache Beam è disponibile nel repository Apache Beam su GitHub.
Java
Gli esempi di codice sono disponibili nella directory Esempi di Apache Beam su GitHub.
Python
Gli esempi di codice sono disponibili nella directory Esempi di Apache Beam su GitHub.
Go
Gli esempi di codice sono disponibili nella directory Esempi di Apache Beam su GitHub.
Trova la versione dell'SDK per Dataflow
I dettagli dell'installazione dipendono dall'ambiente di sviluppo. Se utilizzi Maven, puoi avere più versioni dell'SDK Dataflow "installate" in uno o più repository Maven locali.
Java
Per scoprire quale versione dell'SDK Dataflow è in esecuzione una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowPipelineRunner
o BlockingDataflowPipelineRunner
. La console conterrà un messaggio simile al seguente, che conterrà le informazioni sulla versione dell'SDK Dataflow:
Python
Per scoprire quale versione dell'SDK Dataflow è in esecuzione da una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowRunner
. La console conterrà un messaggio simile al seguente, che conterrà le informazioni sulla versione dell'SDK Dataflow:
Go
Per scoprire quale versione dell'SDK Dataflow è in esecuzione da una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowRunner
. La console conterrà un messaggio simile al seguente, che conterrà le informazioni sulla versione dell'SDK Dataflow:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
Passaggi successivi
- Dataflow si integra con Google Cloud CLI. Per istruzioni sull'installazione dell'interfaccia a riga di comando di Dataflow, consulta Utilizzo dell'interfaccia a riga di comando di Dataflow.
- Per scoprire quali funzionalità di Apache Beam sono supportate da Dataflow, esamina la matrice delle funzionalità di Apache Beam.