Installa l'SDK Apache Beam

Questa pagina mostra come installare l'SDK Apache Beam per eseguire le pipeline nel servizio Dataflow.

Installare le release dell'SDK

L'SDK Apache Beam è un modello di programmazione open source per le pipeline di dati. Definisci queste pipeline con un programma Apache Beam e puoi scegliere un runner, come Dataflow, per eseguirle.

Java

L'ultima versione rilasciata dell'SDK Apache Beam per Java è 2.61.0. Consulta l' annuncio di rilascio per informazioni sulle modifiche incluse nella release.

Per ottenere l'SDK Apache Beam per Java utilizzando Maven, utilizza uno degli elementi pubblicati nel Maven Central Repository.

Aggiungi le dipendenze e gli strumenti di gestione delle dipendenze al file pom.xml per l'elemento SDK. Per maggiori dettagli, consulta Gestire le dipendenze della pipeline in Dataflow.

Per ulteriori informazioni sulle dipendenze dell'SDK Apache Beam per Java, consulta Dipendenze dell'SDK Apache Beam per Java e Gestire le dipendenze di Beam in Java nella documentazione di Apache Beam.

Python

La versione più recente rilasciata per l'SDK Apache Beam per Python è 2.61.0. Consulta l' annuncio di rilascio per informazioni sulle modifiche incluse nella release.

Per ottenere l'SDK Apache Beam per Python, utilizza uno dei pacchetti rilasciati dall' Python Package Index.

Installa il pacchetto Python eseguendo il seguente comando:

pip install wheel

Installa la versione più recente dell'SDK Apache Beam per Python eseguendo il seguente comando da un ambiente virtuale:

pip install 'apache-beam[gcp]'

A seconda della connessione, l'installazione potrebbe richiedere del tempo.

Per eseguire l'upgrade di un'installazione esistente di apache-beam, utilizza il flag --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Vai

La versione più recente rilasciata per l'SDK Apache Beam per Go è 2.61.0. Consulta l' annuncio di rilascio per informazioni sulle modifiche incluse nella release.

Per installare la versione più recente dell'SDK Apache Beam per Go, esegui il seguente comando:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Configurazione dell'ambiente di sviluppo

Per informazioni su come configurare il progetto Google Cloud e l'ambiente di sviluppo per l'utilizzo di Dataflow, segui una delle guide rapide:

Codice sorgente ed esempi

Il codice sorgente di Apache Beam è disponibile nel repository di Apache Beam su GitHub.

Java

Gli esempi di codice sono disponibili nella directory degli esempi di Apache Beam su GitHub.

Python

Gli esempi di codice sono disponibili nella directory Examples di Apache Beam su GitHub.

Vai

Gli esempi di codice sono disponibili nella directory Examples di Apache Beam su GitHub.

Trovare la versione dell'SDK Dataflow

I dettagli di installazione dipendono dall'ambiente di sviluppo. Se utilizzi Maven, puoi avere più versioni dell'SDK Dataflow "installate" in uno o più repository Maven locali.

Java

Per scoprire quale versione dell'SDK Dataflow è in esecuzione in una determinata pipeline, puoi esaminare l'output della console quando esegui con DataflowPipelineRunner o BlockingDataflowPipelineRunner. La console conterrà un messaggio come quello riportato di seguito, che contiene le informazioni sulla versione dell'SDK Dataflow:

Python

Per scoprire quale versione dell'SDK Dataflow è in esecuzione in una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowRunner. La console conterrà un messaggio come quello riportato di seguito, che contiene le informazioni sulla versione dell'SDK Dataflow:

Vai

Per scoprire quale versione dell'SDK Dataflow è in esecuzione in una determinata pipeline, puoi esaminare l'output della console durante l'esecuzione con DataflowRunner. La console conterrà un messaggio come quello riportato di seguito, che contiene le informazioni sulla versione dell'SDK Dataflow:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

Passaggi successivi