In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
- Dataproc
- Compute Engine
- Cloud Composer
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
Configura il progetto
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Crea un modello di flusso di lavoro Dataproc
Copia ed esegui i comandi elencati di seguito in una finestra del terminale locale o in Cloud Shell per creare e definire un modello di flusso di lavoro.
- Crea il modello di flusso di lavoro
sparkpi
.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Aggiungi il job Spark al modello di flusso di lavoro
sparkpi
. Il flagstep-id
"compute" identifica il job SparkPi.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Utilizza un cluster gestiti,
a un solo nodo
per eseguire il flusso di lavoro. Dataproc creerà il cluster, lo eseguirà e lo eliminerà al termine del flusso di lavoro.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Conferma la creazione del modello di flusso di lavoro.
Console
Fai clic sul nome
sparkpi
nella pagina Dataproc Flussi di lavoro nella console Google Cloud per aprire la pagina Dettagli del modello di flusso di lavoro. Fai clic sul nome del modello di flusso di lavoro per confermare gli attributi del modellosparkpi
.Comando g-cloud
Esegui questo comando:
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
Creare e caricare un DAG in Cloud Storage
- Crea o utilizza un ambiente Cloud Composer esistente.
- Imposta le variabili di ambiente.
UI di Airflow
- Nella barra degli strumenti, fai clic su Amministrazione > Variabili.
- Fai clic su Crea.
- Inserisci le seguenti informazioni:
- Chiave:
project_id
- Val: PROJECT_ID, il tuo ID progetto Google Cloud
- Chiave:
- Fai clic su Salva.
Comando g-cloud
Inserisci i seguenti comandi:
ENVIRONMENT
è il nome dell'ambiente Cloud ComposerLOCATION
è la regione in cui si trova l'ambiente Cloud ComposerPROJECT_ID
è l'ID del progetto che contiene l'ambiente Cloud Composer
gcloud composer environments run ENVIRONMENT --location LOCATION variables set -- project_id PROJECT_ID
- Copia il seguente codice DAG localmente in un file denominato "composer-dataproc-dag.py", che utilizza DataprocInstantiateWorkflowTemplateOperator.
Airflow 2
Airflow 1
- Carica il DAG nella cartella dell'ambiente in Cloud Storage. Al termine del caricamento, fai clic sul link Cartella DAG nella pagina dell'ambiente Cloud Composer.
Visualizzare lo stato di un'attività
UI di Airflow
- Apri l'interfaccia web di Airflow.
- Nella pagina DAG, fai clic sul nome del DAG (ad esempio
dataproc_workflow_dag
). - Nella pagina Dettagli DAG, fai clic su Visualizzazione grafico.
- Controlla lo stato:
- Non riuscita: l'attività è racchiusa in un riquadro rosso. Puoi anche tenere premuto il cursore sopra l'attività e cercare Stato: non riuscito.
- Risultato positivo: l'attività è racchiusa in una casella verde. Puoi anche tenere premuto il cursore sopra l'attività e controllare se è presente lo stato Stato: completata.
Console
Fai clic sulla scheda Workflows per visualizzare lo stato del flusso di lavoro.
Comando g-cloud
gcloud dataproc operations list \ --region=us-central1 \ --filter="labels.goog-dataproc-workflow-template-id=sparkpi"
Pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi, puoi eliminare le risorse utilizzate in questo tutorial:
Passaggi successivi
- Consulta la Panoramica dei modelli di flusso di lavoro Dataproc
- Consulta la sezione Soluzioni di pianificazione del flusso di lavoro