Funzionalità di Cloud Composer

Cloud Composer 1 | Cloud Composer 2

Questa pagina fornisce una panoramica delle caratteristiche e funzionalità di Cloud Composer.

Per saperne di più sulle differenze tra Cloud Composer 1 e Cloud Composer 2, consulta la panoramica del controllo delle versioni.

Cloud Composer è un servizio Apache Airflow gestito che consente di creare, pianificare, monitorare e gestire i flussi di lavoro.

Ambienti Cloud Composer

Un ambiente Cloud Composer è un wrapper attorno ad Apache Airflow. Cloud Composer crea i seguenti componenti per ogni ambiente:

  • Cluster GKE: gli scheduler, i worker e la coda Redis Airflow vengono eseguiti come carichi di lavoro GKE su un singolo cluster e sono responsabili dell'elaborazione e dell'esecuzione dei DAG. Il cluster ospita anche altri componenti di Cloud Composer, come Composer Agent e Airflow Monitoring, che consentono di gestire l'ambiente Cloud Composer, raccogliere i log da archiviare in Cloud Logging e raccogliere le metriche da caricare su Cloud Monitoring.
  • Server web: il server web esegue l'interfaccia web di Apache Airflow. Per ulteriori informazioni, consulta la pagina relativa all'interfaccia web di Airflow.
  • Database: il database contiene i metadati di Apache Airflow.
  • Bucket Cloud Storage: Cloud Composer associa un bucket Cloud Storage all'ambiente. Il bucket associato archivia i DAG, i log, i plug-in personalizzati e i dati per l'ambiente. Per ulteriori informazioni sul bucket di archiviazione per Cloud Composer, consulta Dati archiviati in Cloud Storage.

Gestione Airflow

Per accedere agli ambienti Airflow e gestirli, puoi utilizzare i seguenti strumenti nativi di Airflow:

  • Interfaccia web: puoi accedere all'interfaccia web di Airflow dalla console Google Cloud o tramite URL diretto con le autorizzazioni appropriate. Per informazioni, consulta la pagina relativa all'interfaccia web di Airflow.
  • Strumenti a riga di comando: dopo aver installato Google Cloud CLI, puoi eseguire i comandi gcloud composer environments per inviare comandi a riga di comando di Airflow agli ambienti Cloud Composer. Per informazioni, consulta Interfaccia a riga di comando di Airflow.

Oltre agli strumenti nativi, le API REST e RPC di Cloud Composer forniscono l'accesso programmatico ai tuoi ambienti Airflow. Per ulteriori informazioni, consulta la sezione API e riferimenti.

Configurazione Airflow

In generale, le configurazioni fornite da Cloud Composer per Apache Airflow corrispondono a quelle per un deployment Airflow ospitato localmente. Alcune configurazioni di Airflow sono preconfigurate in Cloud Composer e non è possibile modificare le proprietà di configurazione. Altre configurazioni che specifichi durante la creazione o l'aggiornamento dell'ambiente. Per maggiori informazioni, consulta Configurazioni Airflow bloccate.

DAG Airflow (flussi di lavoro)

Un DAG di Apache Airflow è un flusso di lavoro: una raccolta di attività con dipendenze delle attività aggiuntive. Cloud Composer usa Cloud Storage per archiviare i DAG. Per aggiungere o rimuovere i DAG dall'ambiente Cloud Composer, devi aggiungerli o rimuoverli dal bucket dell'ambiente associato all'ambiente. Dopo aver spostato i DAG nel bucket di archiviazione, questi vengono aggiunti e pianificati automaticamente nel tuo ambiente.

Oltre a pianificare i DAG, puoi attivarli manualmente o in risposta a eventi come le modifiche che si verificano nel bucket Cloud Storage associato. Per maggiori informazioni, consulta la sezione Attivazione dei DAG.

Plug-in

Puoi installare plug-in personalizzati, ad esempio operatori, hook, sensori o interfacce di Apache Airflow personalizzati e interni, nel tuo ambiente Cloud Composer. Per ulteriori informazioni, consulta la sezione Installazione di plug-in personalizzati.

Dipendenze Python

Puoi installare le dipendenze Python dall'indice dei pacchetti Python nel tuo ambiente o da un repository di pacchetti privato. Per ulteriori informazioni, consulta Installazione delle dipendenze Python.

Se le dipendenze non sono incluse nell'indice dei pacchetti, puoi utilizzare anche la funzionalità plugins.

Controllo dell'accesso

Puoi gestire la sicurezza a livello di progetto Google Cloud e assegnare ruoli IAM (Identity and Access Management) che impediscono ai singoli utenti di modificare o creare ambienti. Se qualcuno non ha accesso al tuo progetto o non dispone di un ruolo IAM di Cloud Composer appropriato, quella persona non può accedere a nessuno dei tuoi ambienti. Per ulteriori informazioni, vedi Controllo dell'accesso.

Logging e monitoraggio

Puoi visualizzare i log di Airflow associati a singole attività DAG nell'interfaccia web di Airflow e nella cartella logs nel bucket Cloud Storage dell'ambiente.

Per Cloud Composer sono disponibili log di flusso. Per ulteriori informazioni, consulta Monitoraggio degli ambienti Cloud Composer.

Cloud Composer fornisce inoltre audit log, come gli audit log delle attività di amministrazione, per i progetti Google Cloud. Per informazioni, consulta Visualizzazione degli audit log.

Networking e sicurezza

Per impostazione predefinita, Cloud Composer esegue il deployment di un cluster Google Kubernetes Engine native in modalità Standard.

Per una maggiore flessibilità di sicurezza e networking, Cloud Composer supporta anche le seguenti funzionalità.

VPC condiviso

Un VPC condiviso consente la gestione condivisa delle risorse di rete da un progetto host centrale per applicare criteri di rete coerenti su tutti i progetti.

Quando Cloud Composer partecipa a un VPC condiviso, l'ambiente Cloud Composer è in un progetto di servizio e può richiamare servizi ospitati in altri progetti Google Cloud. Le risorse all'interno dei progetti di servizio comunicano in modo sicuro oltre i confini dei progetti utilizzando indirizzi IP interni. Per i requisiti di rete e del progetto host, consulta Configurazione di un VPC condiviso.

Ambiente Cloud Composer nativo VPC

Con VPC-native, gli indirizzi IP di pod e servizi nel cluster GKE sono instradabili in modo nativo all'interno della rete Google Cloud, anche tramite il peering di rete VPC.

In questa configurazione, Cloud Composer esegue il deployment di un cluster GKE nativo di VPC utilizzando indirizzi IP alias nel tuo ambiente. Quando usi cluster nativi di VPC, GKE sceglie automaticamente un intervallo secondario. Per requisiti di networking specifici, puoi anche configurare gli intervalli secondari per i pod GKE e i servizi GKE durante la configurazione dell'ambiente Cloud Composer.

Ambiente Cloud Composer con IP privato

Con l'IP privato, i flussi di lavoro di Cloud Composer sono completamente isolati dalla rete internet pubblica.

In questa configurazione, Cloud Composer esegue il deployment di un cluster GKE nativo di VPC utilizzando indirizzi IP alias nel progetto del cliente. Il cluster GKE per il tuo ambiente è configurato come cluster privato e l'istanza Cloud SQL è configurata per IP privato.

Cloud Composer crea anche una connessione in peering tra la rete VPC del progetto del cliente e la rete VPC del progetto tenant.

Integrazione della derivazione dei dati con Dataplex

L'esecuzione di DAG di Cloud Composer può spesso comportare la creazione o l'aggiornamento di origini dati, ad esempio le tabelle BigQuery nel progetto. La derivazione dei dati è una funzionalità di Dataplex che consente di monitorare il modo in cui i dati si spostano attraverso i sistemi: da dove provengono, dove vengono trasmessi e quali trasformazioni vengono applicate.

Per saperne di più, consulta Integrazione della derivazione dei dati e Informazioni sulla derivazione dei dati nella documentazione di Dataplex.

Novità