Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Questa pagina descrive come utilizzare Cloud Composer 2 per eseguire carichi di lavoro Dataproc Serverless su Google Cloud.
Gli esempi nelle sezioni seguenti mostrano come utilizzare gli operatori per gestire i carichi di lavoro batch Dataproc Serverless. Utilizzi questi operatori nei DAG che creano, eliminano, elencano e recuperano un carico di lavoro batch Spark serverless Dataproc:
Crea DAG per operatori che funzionano con i carichi di lavoro batch Dataproc Serverless:
Crea DAG che utilizzano container personalizzati e Dataproc Metastore.
Configura il server di cronologia permanente per questi DAG.
Prima di iniziare
Abilita l'API Dataproc:
Console
Enable the Dataproc API.
gcloud
Enable the Dataproc API:
gcloud services enable dataproc.googleapis.com
Seleziona la posizione del file del carico di lavoro batch. Puoi utilizzare una delle seguenti opzioni:
- Crea un bucket Cloud Storage che contenga questo file.
- Utilizza il bucket del tuo ambiente. Poiché non devi sincronizzare questo file
con Airflow, puoi creare una sottocartella separata al di fuori delle cartelle
/dags
o/data
. Ad esempio:/batches
. - Utilizza un bucket esistente.
Configura i file e le variabili Airflow
Questa sezione mostra come configurare i file e le variabili Airflow per questo tutorial.
Carica un file di carico di lavoro Spark ML di Dataproc Serverless in un bucket
Il workload in questo tutorial esegue uno script pyspark:
Salva qualsiasi script pyspark in un file locale denominato
spark-job.py
. Ad esempio, puoi utilizzare lo script pyspark di esempio.Carica il file nella posizione che hai selezionato in Prima di iniziare.
Imposta le variabili Airflow
Gli esempi nelle sezioni seguenti utilizzano le variabili Airflow. Imposti i valori per queste variabili in Airflow, poi il codice DAG può accedere a questi valori.
Gli esempi di questo tutorial utilizzano le seguenti variabili Airflow. Puoi impostarli in base alle tue esigenze, a seconda dell'esempio che utilizzi.
Imposta le seguenti variabili Airflow da utilizzare nel codice DAG:
project_id
: ID progetto.bucket_name
: URI di un bucket in cui si trova il file Python principale del carico di lavoro (spark-job.py
). Hai selezionato questa posizione in Prima di iniziare.phs_cluster
: il nome del cluster del server di cronologia permanente. Imposti questa variabile quando crei un server di cronologia permanente.image_name
: nome e tag dell'immagine del contenitore personalizzato (image:tag
). Imposti questa variabile quando utilizzi l'immagine del contenitore personalizzato con DataprocCreateBatchOperator.metastore_cluster
: il nome del servizio Dataproc Metastore. Imposti questa variabile quando utilizzi il servizio Dataproc Metastore con DataprocCreateBatchOperator.region_name
: la regione in cui si trova il servizio Dataproc Metastore. Imposti questa variabile quando utilizzi il servizio Dataproc Metastore con DataprocCreateBatchOperator.
Utilizza la console Google Cloud e l'UI di Airflow per impostare ogni variabile Airflow
Nella console Google Cloud , vai alla pagina Ambienti.
Nell'elenco degli ambienti, fai clic sul link Airflow per il tuo ambiente. Si apre l'UI di Airflow.
Nell'interfaccia utente di Airflow, seleziona Admin > Variables.
Fai clic su Add a new record (Aggiungi un nuovo record).
Specifica il nome della variabile nel campo Chiave e imposta il valore nel campo Valore.
Fai clic su Salva.
Crea un server di cronologia permanente
Utilizza un server di cronologia permanente (PHS) per visualizzare i file di cronologia Spark dei carichi di lavoro batch:
- Crea un server di cronologia permanente.
- Assicurati di aver specificato il nome del cluster PHS nella
phs_cluster
variabile Airflow.
DataprocCreateBatchOperator
Il seguente DAG avvia un carico di lavoro batch Dataproc Serverless.
Per saperne di più sugli argomenti di DataprocCreateBatchOperator
, consulta il
codice sorgente dell'operatore.
Per saperne di più sugli attributi che puoi trasmettere nel parametro batch
di DataprocCreateBatchOperator
, consulta la
descrizione della classe Batch.
Utilizza l'immagine container personalizzata con DataprocCreateBatchOperator
L'esempio seguente mostra come utilizzare un'immagine del container personalizzata per eseguire i tuoi carichi di lavoro. Puoi utilizzare un container personalizzato, ad esempio, per aggiungere dipendenze Python non fornite dall'immagine del container predefinito.
Per utilizzare un'immagine container personalizzata:
Crea un'immagine container personalizzata e caricala su Container Registry.
Specifica l'immagine nella variabile Airflow
image_name
.Utilizza DataprocCreateBatchOperator con la tua immagine personalizzata:
Utilizza il servizio Dataproc Metastore con DataprocCreateBatchOperator
Per utilizzare un servizio Dataproc Metastore da un DAG:
Verifica che il servizio metastore sia già avviato.
Per informazioni sull'avvio di un servizio metastore, consulta Abilitare e disabilitare Dataproc Metastore.
Per informazioni dettagliate sull'operatore batch per la creazione della configurazione, vedi PeripheralsConfig.
Una volta che il servizio metastore è attivo e funzionante, specifica il suo nome nella variabile
metastore_cluster
e la sua regione nellaregion_name
variabile Airflow.Utilizza il servizio metastore in DataprocCreateBatchOperator:
DataprocDeleteBatchOperator
Puoi utilizzare DataprocDeleteBatchOperator per eliminare un batch in base all'ID batch del workload.
DataprocListBatchesOperator
DataprocDeleteBatchOperator elenca i batch esistenti all'interno di un determinato project_id e regione.
DataprocGetBatchOperator
DataprocGetBatchOperator recupera un particolare carico di lavoro batch.