Esegui un DAG Apache Airflow in Cloud Composer 2 (Google Cloud CLI)
Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Questa guida rapida mostra come creare un ambiente Cloud Composer ed eseguire un DAG Apache Airflow in Cloud Composer 2.
Se non hai mai utilizzato Airflow, consulta le Tutorial sui concetti di Airflow in Apache Airflow documentazione di Airflow per ulteriori informazioni su concetti, oggetti e il loro utilizzo.
Se vuoi utilizzare la console Google Cloud, consulta Esegui un DAG Apache Airflow in Cloud Composer.
Se vuoi creare un ambiente utilizzando Terraform, consulta Crea ambienti (Terraform).
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create or select a Google Cloud project.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_ID
with a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_ID
with your Google Cloud project name.
-
-
Make sure that billing is enabled for your Google Cloud project.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create or select a Google Cloud project.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_ID
with a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_ID
with your Google Cloud project name.
-
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Composer API:
gcloud services enable composer.googleapis.com
-
Per ottenere le autorizzazioni necessarie per completare questa guida rapida, chiedi all'amministratore di concederti i seguenti ruoli IAM sul tuo progetto:
-
Per visualizzare, creare e gestire l'ambiente Cloud Composer:
-
Amministratore oggetti di ambiente e archiviazione (
roles/composer.environmentAndStorageObjectAdmin
) -
Utente account di servizio (
roles/iam.serviceAccountUser
)
-
Amministratore oggetti di ambiente e archiviazione (
-
Per visualizzare i log:
Visualizzatore log (
roles/logging.viewer
)
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
-
Per visualizzare, creare e gestire l'ambiente Cloud Composer:
Creazione di un ambiente
Se questo è il primo ambiente del progetto,
aggiungi l'account dell'agente di servizio Cloud Composer come nuova entità
sull'account di servizio del tuo ambiente e concedere
ruolo roles/composer.ServiceAgentV2Ext
.
Per impostazione predefinita, l'ambiente utilizza l'account di servizio Compute Engine predefinito e l'esempio seguente mostra come aggiungere questa autorizzazione.
# Get current project's project number
PROJECT_NUMBER=$(gcloud projects list \
--filter="$(gcloud config get-value project)" \
--format="value(PROJECT_NUMBER)" \
--limit=1)
# Add the Cloud Composer v2 API Service Agent Extension role
gcloud iam service-accounts add-iam-policy-binding \
$PROJECT_NUMBER-compute@developer.gserviceaccount.com \
--member serviceAccount:service-$PROJECT_NUMBER@cloudcomposer-accounts.iam.gserviceaccount.com \
--role roles/composer.ServiceAgentV2Ext
Crea un nuovo ambiente denominato example-environment
in us-central1
regione, con la versione più recente di Cloud Composer 2.
gcloud composer environments create example-environment \
--location us-central1 \
--image-version composer-2.9.3-airflow-2.9.1
Crea un file DAG
Un DAG Airflow è una raccolta di attività organizzate che che vuoi pianificare ed eseguire. I DAG sono definiti in file Python standard.
Questa guida utilizza un esempio di DAG Airflow definito nel file quickstart.py
.
Il codice Python in questo file esegue le seguenti operazioni:
- Crea un DAG,
composer_sample_dag
. Questo DAG viene eseguito ogni giorno. - Esegue un'attività,
print_dag_run_conf
. L'attività stampa l'esecuzione del DAG configurazione utilizzando l'operatore bash.
Salva una copia del file quickstart.py
sul computer locale:
Carica il file DAG nel bucket dell'ambiente
Ogni ambiente Cloud Composer dispone di un
associato a questo bucket. Airflow in Cloud Composer pianifica solo
i DAG che si trovano nella cartella /dags
di questo bucket.
Per pianificare il DAG, carica quickstart.py
dalla macchina locale al tuo
cartella /dags
dell'ambiente:
Per caricare quickstart.py
con Google Cloud CLI, esegui questo comando in
la cartella in cui si trova il file quickstart.py
:
gcloud composer environments storage dags import \
--environment example-environment --location us-central1 \
--source quickstart.py
Visualizza il DAG
Dopo aver caricato il file DAG, Airflow fa quanto segue:
- Analizza il file DAG che hai caricato. Potrebbero essere necessari alcuni minuti i DAG per renderli disponibili per Airflow.
- Aggiunge il DAG all'elenco dei DAG disponibili.
- Esegue il DAG in base alla pianificazione fornita nel file DAG.
Verifica che il DAG venga elaborato senza errori e che sia disponibile in Airflow e lo visualizzi nella UI dei DAG. La UI di DAG è l'interfaccia di Cloud Composer per la visualizzazione Informazioni sui DAG nella console Google Cloud. Cloud Composer offre inoltre accesso alla UI di Airflow, che è un ambiente web di Airflow nativo a riga di comando.
Attendi circa cinque minuti per concedere ad Airflow il tempo di elaborare il file DAG caricato in precedenza e per completare la prima esecuzione del DAG (come spiegato più avanti).
Esegui questo comando in Google Cloud CLI. Questo comando esegue
dags list
Comando dell'interfaccia a riga di comando di Airflow che elenca i DAG completamente gestito di Google Cloud.gcloud composer environments run example-environment \ --location us-central1 \ dags list
Verifica che il DAG
composer_quickstart
sia elencato nell'output del comando.Output di esempio:
Executing the command: [ airflow dags list ]... Command has been started. execution_id=d49074c7-bbeb-4ee7-9b26-23124a5bafcb Use ctrl-c to interrupt the command dag_id | filepath | owner | paused ====================+=======================+==================+======= airflow_monitoring | airflow_monitoring.py | airflow | False composer_quickstart | dag-quickstart-af2.py | Composer Example | False
Visualizza dettagli esecuzione DAG
Una singola esecuzione di un DAG è chiamata esecuzione di DAG. Airflow immediatamente esegue un'esecuzione di DAG per il DAG di esempio perché la data di inizio nel file DAG è impostato su ieri. In questo modo, Airflow si allinea alla pianificazione del DAG specificato.
Il DAG di esempio contiene un'attività, print_dag_run_conf
, che esegue il comando echo
nella console. Questo comando restituisce metadati sul DAG
(Identificatore numerico dell'esecuzione di DAG).
Esegui il seguente comando nell'interfaccia a riga di comando Google Cloud. Questo comando elenca le esecuzioni di DAG
per il DAG composer_quickstart
:
gcloud composer environments run example-environment \
--location us-central1 \
dags list-runs -- --dag-id composer_quickstart
Output di esempio:
dag_id | run_id | state | execution_date | start_date | end_date
====================+=============================================+=========+==================================+==================================+=================================
composer_quickstart | scheduled__2024-02-17T15:38:38.969307+00:00 | success | 2024-02-17T15:38:38.969307+00:00 | 2024-02-18T15:38:39.526707+00:00 | 2024-02-18T15:38:42.020661+00:00
L'interfaccia a riga di comando di Airflow non fornisce un comando per visualizzare i log delle attività. Puoi utilizzare altri metodi per visualizzare i log delle attività di Airflow: l'interfaccia utente DAG di Cloud Composer, l'interfaccia utente di Airflow o Cloud Logging. Questa guida mostra un modo per eseguire query su Cloud Logging per i log di una specifica esecuzione del DAG.
Esegui questo comando in Google Cloud CLI. Questo comando legge i log da
Cloud Logging per un'esecuzione specifica del DAG del DAG composer_quickstart
. La
L'argomento --format
formatta l'output in modo che solo il testo del messaggio di log
.
gcloud logging read \
--format="value(textPayload)" \
--order=asc \
"resource.type=cloud_composer_environment \
resource.labels.location=us-central1 \
resource.labels.environment_name=example-environment \
labels.workflow=composer_quickstart \
(labels.\"execution-date\"=\"RUN_ID\")"
Sostituisci:
RUN_ID
con il valorerun_id
dell'output deltasks states-for-dag-run
che hai eseguito in precedenza. Ad esempio,2024-02-17T15:38:38.969307+00:00
.
Output di esempio:
...
Starting attempt 1 of 2
Executing <Task(BashOperator): print_dag_run_conf> on 2024-02-17
15:38:38.969307+00:00
Started process 22544 to run task
...
Running command: ['/usr/bin/bash', '-c', 'echo 115746']
Output:
115746
...
Command exited with return code 0
Marking task as SUCCESS. dag_id=composer_quickstart,
task_id=print_dag_run_conf, execution_date=20240217T153838,
start_date=20240218T153841, end_date=20240218T153841
Task exited with return code 0
0 downstream tasks scheduled from follow-on schedule check
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, elimina il progetto Google Cloud Google Cloud.
Elimina le risorse utilizzate in questo tutorial:
Elimina l'ambiente Cloud Composer:
Nella console Google Cloud, vai alla pagina Ambienti.
Seleziona
example-environment
e fai clic su Elimina.Attendi fino a quando l'ambiente non viene eliminato.
Elimina il bucket dell'ambiente. Eliminazione di Cloud Composer di rete non elimina il proprio bucket.
Nella console Google Cloud, vai a Storage > Pagina Browser.
Seleziona il bucket dell'ambiente e fai clic su Elimina. Ad esempio, questo il bucket può essere denominato
us-central1-example-environ-c1616fe8-bucket
.
Elimina il disco persistente della coda Redis del tuo ambiente. L'eliminazione dell'ambiente Cloud Composer non comporta l'eliminazione del relativo disco permanente.
Nella console Google Cloud, vai a Compute Engine > Dischi.
Seleziona il disco permanente della coda Redis dell'ambiente e fai clic su Elimina.
Ad esempio, questo disco può essere chiamato
pvc-02bc4842-2312-4347-8519-d87bdcd31115
. Dischi per Cloud Composer 2 ha sempre il tipoBalanced persistent disk
di 2 GB.
Passaggi successivi