Architettura dell'ambiente

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Questa pagina descrive l'architettura degli ambienti Cloud Composer.

Configurazioni dell'architettura dell'ambiente

Gli ambienti Cloud Composer 3 hanno una singola configurazione che non dipende dal tipo di rete:

Progetti cliente e tenant

Quando crei un ambiente, Cloud Composer distribuisce le risorse dell'ambiente tra un progetto tenant e un progetto cliente:

  • Un progetto cliente è un progetto Google Cloud in cui crei i tuoi ambienti. Puoi creare più di un ambiente in un singolo progetto cliente.

  • Il progetto tenant è un progetto tenant gestito da Google e appartiene all'organizzazione Google.com. Il progetto tenant fornisce controllo dell'accessoo unificato e un ulteriore livello di sicurezza dei dati al tuo ambiente. Ogni ambiente Cloud Composer ha il proprio progetto tenant.

Componenti dell'ambiente

Un ambiente Cloud Composer è costituito da componenti dell'ambiente.

Un componente dell'ambiente è un elemento di un'infrastruttura Airflow gestita che viene eseguito su Google Cloud, come parte del tuo ambiente. I componenti dell'ambiente vengono eseguiti nel tenant o nel progetto cliente dell'ambiente.

Bucket dell'ambiente

Il bucket dell'ambiente è un bucket Cloud Storage che archivia DAG, plug-in, dipendenze dei dati e log Airflow. Il bucket dell'ambiente si trova nel progetto del cliente.

Quando carichi i file DAG nella cartella /dags del bucket dell'ambiente, Cloud Composer sincronizza i DAG con i componenti Airflow dell'ambiente.

Server web Airflow

Il server web di Airflow esegue la UI di Airflow del tuo ambiente.

Cloud Composer fornisce l'accesso all'interfaccia in base alle identità utente e alle associazioni di criteri IAM definite per gli utenti.

Database Airflow

Il database Airflow è un'istanza Cloud SQL che viene eseguita nel progetto tenant del tuo ambiente. Ospita il database di metadati Airflow.

Per proteggere le informazioni sensibili su connessioni e flussi di lavoro, Cloud Composer consente l'accesso al database solo all'account di servizio del tuo ambiente.

Altri componenti Airflow

Gli altri componenti Airflow eseguiti nel tuo ambiente sono:

  • Gli scheduler Airflow analizzano i file di definizione DAG, pianificano le esecuzioni dei DAG in base all'intervallo pianificato e accodano le attività per l'esecuzione da parte dei worker di Airflow.

  • I triggerer di Airflow monitorano in modo asincrono tutte le attività differite nel tuo ambiente. Se imposti il numero di attivatori nel tuo ambiente su un valore superiore a zero, puoi utilizzare operatori differibili nei tuoi DAG.

  • I processori DAG di Airflow elaborano i file DAG e li trasformano in oggetti DAG. In Cloud Composer 3, i processori DAG vengono eseguiti come componenti separati dell'ambiente.

  • I worker di Airflow eseguono le attività pianificate dagli scheduler di Airflow. Il numero minimo e massimo di worker nel tuo ambiente cambia in modo dinamico a seconda del numero di attività in coda.

Architettura dell'ambiente Cloud Composer 3

Risorse dell'ambiente Cloud Composer 3 nel progetto tenant e nel progetto cliente
Figura 1. Architettura dell'ambiente Cloud Composer 3 (fai clic per ingrandire)

Negli ambienti Cloud Composer 3:

  • Il progetto tenant ospita un'istanza Cloud SQL con il database Airflow.
  • Tutte le risorse Airflow vengono eseguite nel progetto tenant.
  • Il progetto cliente ospita il bucket dell'ambiente.
  • Un collegamento di rete VPC personalizzato nel progetto cliente può essere utilizzato per collegare l'ambiente a una rete VPC personalizzata. Puoi utilizzare un allegato esistente oppure Cloud Composer può crearlo automaticamente su richiesta. È anche possibile scollegare un ambiente da una rete VPC.
  • Google Cloud , Monitoring e Logging nel progetto del cliente forniscono modi per gestire l'ambiente, i DAG e le esecuzioni dei DAG e per accedere alle metriche e ai log dell'ambiente. Puoi anche utilizzare l'interfaccia utente Airflow, Google Cloud CLI, l'API Cloud Composer e Terraform per gli stessi scopi.

Negli ambienti Cloud Composer 3 ad alta resilienza:

  • L'istanza Cloud SQL del tuo ambiente è configurata per l'alta disponibilità (è un'istanza regionale). All'interno di un'istanza regionale, la configurazione include un'istanza principale e un'istanza in standby.

  • Il tuo ambiente esegue i seguenti componenti Airflow in zone separate:

    • Due scheduler Airflow
    • Due server web
    • Almeno due processori DAG (fino a un massimo di 10)
    • Se vengono utilizzati attivatori, almeno due (fino a un massimo di 10)

    • Il numero minimo di worker è impostato su due e il cluster del tuo ambiente distribuisce le istanze worker tra le zone. In caso di interruzione a livello di zona, le istanze worker interessate vengono riprogrammate in una zona diversa.

Integrazione con Cloud Logging e Cloud Monitoring

Cloud Composer si integra con Cloud Logging e Cloud Monitoring del tuo progetto Google Cloud , in modo da avere un punto centrale per visualizzare i log di Airflow e DAG.

Cloud Monitoring raccoglie e importa metriche, eventi e metadati da Cloud Composer per generare approfondimenti tramite dashboard e grafici.

Grazie alla natura di streaming di Cloud Logging, puoi visualizzare immediatamente i log emessi dai componenti Airflow anziché attendere che i log di Airflow vengano visualizzati nel bucket Cloud Storage del tuo ambiente.

Per limitare il numero di log nel tuo progetto Google Cloud , puoi interrompere l'importazione di tutti i log. Non disattivare il logging.

Passaggi successivi