Panoramica di Cloud Composer

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

Questa pagina fornisce una breve introduzione ad Airflow e DAG e descrive i caratteristiche e funzionalità di Cloud Composer.

Per saperne di più sulle nuove funzionalità delle release di Cloud Composer, consulta le Note di rilascio.

Informazioni su Cloud Composer

Cloud Composer è un servizio di orchestrazione del flusso di lavoro completamente gestito, che ti consente di creare, pianificare, monitorare e gestire pipeline di flusso di lavoro che si estendono su cloud e data center on-premise.

Cloud Composer si basa sul popolare progetto open source Apache Airflow e opera utilizzando il linguaggio di programmazione Python.

Utilizzando Cloud Composer al posto di un'istanza locale di Apache. Airflow, puoi sfruttare al meglio il potenziale di Airflow senza installazione o e l'overhead per la gestione. Cloud Composer ti aiuta a creare Airflow gestito rapidamente e utilizzano strumenti nativi di Airflow, come i potenti Interfaccia web e strumenti a riga di comando di Airflow, per concentrarti sulle dei flussi di lavoro e non dell'infrastruttura.

Differenze tra le versioni di Cloud Composer

Per ulteriori informazioni sulle differenze tra le versioni principali Cloud Composer, vedi Panoramica del controllo delle versioni di Cloud Composer.

DAG (flussi di lavoro) Airflow e Airflow

Nell'analisi dei dati, un flusso di lavoro rappresenta una serie di attività per l'importazione, trasformare, analizzare o utilizzare i dati. In Airflow, i flussi di lavoro vengono creati utilizzando i DAG o "Directed Acyclic Graphs".

Relazione tra DAG e attività
Figura 1. Relazione tra DAG e attività
.

Un DAG è una raccolta di attività che vuoi pianificare ed eseguire, organizzate in modo da riflettere le loro relazioni e dipendenze. I DAG vengono creati nei file Python, che definiscono la struttura dei DAG tramite codice. I DAG lo scopo è garantire che ogni attività venga eseguita al momento giusto e nell'ordine corretto.

Ogni attività in un DAG può rappresentare quasi tutto, ad esempio un'attività può eseguire una qualsiasi delle seguenti funzioni:

  • Preparazione dei dati per l'importazione
  • Monitoraggio di un'API
  • Invio di un'email in corso...
  • Esecuzione di una pipeline

Oltre a eseguire un DAG in base a una pianificazione, puoi attivare i DAG manualmente o in risposta a eventi come le modifiche a un Cloud Storage di sincronizzare la directory di una VM con un bucket. Per saperne di più, consulta Attivazione dei DAG.

Per ulteriori informazioni sui DAG le attività, consulta le Documentazione di Apache Airflow.

Ambienti Cloud Composer

Gli ambienti Cloud Composer sono Airflow autonomi i deployment basati su Google Kubernetes Engine. Funzionano con altri servizi Google Cloud utilizzando connettori integrati in Airflow. Puoi creare uno o più ambienti in un singolo ambiente Google Cloud in tutte le regioni supportate.

Cloud Composer esegue il provisioning dei servizi Google Cloud che dei tuoi flussi di lavoro e di tutti i componenti Airflow. I componenti principali di un sono:

  • Cluster GKE: componenti Airflow come Airflow scheduler, triggerer e worker vengono eseguiti come carichi di lavoro GKE in un unico cluster creato per il tuo ambiente e sono responsabili nell'elaborazione e nell'esecuzione dei DAG.

    Il cluster ospita anche altri componenti di Cloud Composer come l'agente Composer e Airflow Monitoring, che aiutano a gestire Cloud Composer raccogli i log da archiviare in Cloud Logging e raccogli le metriche da caricare su Cloud Monitoring.

  • Server web Airflow: il server web esegue la UI di Apache Airflow.

  • Database Airflow: il database contiene i metadati Apache Airflow.

  • Bucket Cloud Storage: associati di Cloud Composer un bucket Cloud Storage con il tuo ambiente. Questo bucket, chiamato anche bucket dell'ambiente, archivia la DAG, log, personalizzati plug-in, e dati per l'ambiente. Per ulteriori informazioni sull'ambiente visualizza il bucket Dati archiviati in Cloud Storage.

Per uno sguardo approfondito sui componenti di un ambiente, vedi Architettura dell'ambiente.

Interfacce di Cloud Composer

Cloud Composer fornisce interfacce per la gestione di ambienti, Istanze Airflow in esecuzione all'interno di ambienti e singoli DAG.

Ad esempio, puoi creare e configurare Ambienti Cloud Composer nella console Google Cloud Google Cloud CLI, API Cloud Composer o Terraform.

Per fare un altro esempio, puoi gestire i DAG Console Google Cloud, UI nativa di Airflow o l'esecuzione Google Cloud CLI e comandi dell'interfaccia a riga di comando Airflow.

Funzionalità di Airflow in Cloud Composer

Quando utilizzi Cloud Composer, puoi gestire e utilizzare le funzionalità di Airflow quali:

Controllo dell'accesso in Cloud Composer

Gestisci la sicurezza a livello di progetto Google Cloud assegnare ruoli IAM che consentono ai team di modificare o creare ambienti. Se qualcuno non ha accesso al tuo progetto o non dispone di un Cloud Composer appropriato non può accedere a nessuno dei tuoi ambienti.

Oltre a IAM, puoi utilizzare Controllo dell'accesso all'interfaccia utente di Airflow, che si basa sul controllo Modello di controllo degli accessi di Airflow.

Per ulteriori informazioni sulle funzionalità di sicurezza in Cloud Composer, vedi Panoramica sulla sicurezza di Cloud Composer.

Networking dell'ambiente

Cloud Composer supporta diverse configurazioni di networking ambienti, con molte opzioni di configurazione. Ad esempio, in un IP privato i DAG e i componenti Airflow sono completamente isolati dal pubblico internet.

Per saperne di più sul networking in Cloud Composer, consulta le pagine per le singole funzionalità di networking:

Altre funzionalità di Cloud Composer

Altre funzionalità di Cloud Composer includono:

Domande frequenti

Quale versione di Apache Airflow utilizza Cloud Composer?

Gli ambienti Cloud Composer si basano su Immagini di Cloud Composer. Quando crei un'immagine , puoi selezionare un'immagine con una versione Airflow specifica:

  • Cloud Composer 3 supporta Airflow 2.
  • Cloud Composer 2 supporta Airflow 2.
  • Cloud Composer 1 supporta Airflow 1 e Airflow 2.

Hai il controllo della versione Apache Airflow del tuo ambiente. Puoi decidere di eseguire l'upgrade dell'ambiente a una versione successiva Cloud Composer. Ciascuna La release di Cloud Composer supporta diverse applicazioni Versioni Airflow.

Posso utilizzare l'interfaccia utente e l'interfaccia a riga di comando native di Airflow?

Puoi accedere all'interfaccia web di Apache Airflow del tuo ambiente. Ciascuno di i tuoi ambienti hanno la propria UI Airflow. Per ulteriori informazioni sull'accesso vedi la UI di Airflow, vedi Interfaccia web di Airflow.

Per eseguire i comandi dell'interfaccia a riga di comando di Airflow nei tuoi ambienti, utilizza i comandi gcloud. Per ulteriori informazioni sull'esecuzione dei comandi dell'interfaccia a riga di comando di Airflow in per gli ambienti Cloud Composer, consulta Interfaccia a riga di comando di Airflow.

Posso utilizzare il mio database come database Airflow?

Cloud Composer utilizza un servizio di database gestito per Airflow per configurare un database. Non è possibile utilizzare un database fornito dall'utente come database Airflow.

Posso utilizzare il mio cluster come cluster Cloud Composer?

Cloud Composer usa il servizio Google Kubernetes Engine per creare, gestire e Elimina i cluster di ambiente in cui vengono eseguiti i componenti Airflow. Questi cluster vengono completamente gestite da Cloud Composer.

Non è possibile creare un ambiente Cloud Composer in base a di Google Kubernetes Engine autogestito.

Posso utilizzare il mio Container Registry?

Cloud Composer utilizza il servizio Artifact Registry per gestire repository di immagini utilizzati dagli ambienti Cloud Composer. Non è possibile sostituirlo con un Container Registry fornito dall'utente.

Gli ambienti Cloud Composer sono a livello di zona o di regione?

Gli ambienti Cloud Composer 3 e Cloud Composer 2 dispongono di un sistema Airflow a livello di zona e un livello di pianificazione ed esecuzione di Airflow regionale. Flusso d'aria scheduler, worker e server web vengono eseguiti nel livello di esecuzione di Airflow.

Gli ambienti Cloud Composer 1 sono a livello di zona.

Passaggi successivi