Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Auf dieser Seite wird die Architektur von Cloud Composer-Umgebungen beschrieben.
Konfigurationen der Umgebungsarchitektur
Cloud Composer 2-Umgebungen können die folgenden Architekturkonfigurationen haben:
Kunden- und Mandantenprojekte
Beim Erstellen einer Umgebung verteilt Cloud Composer die Ressourcen der Umgebung auf ein Mandanten- und ein Kundenprojekt:
- Das Kundenprojekt ist ein Google Cloud Projekt, in dem Sie Ihre Umgebungen erstellen. Sie können in einem Kundenprojekt mehrere Umgebungen erstellen.
Das Mandantenprojekt ist ein von Google verwaltetes Mandantenprojekt. Das Mandantenprojekt bietet eine einheitliche Zugriffssteuerung und eine zusätzliche Datensicherheitsebene für Ihre Umgebung. Jede Cloud Composer-Umgebung hat ein eigenes Mandantenprojekt.
Umgebungskomponenten
Eine Cloud Composer-Umgebung besteht aus Umgebungskomponenten.
Eine Umgebungskomponente ist ein Element einer verwalteten Airflow-Infrastruktur, die in Google Cloudals Teil Ihrer Umgebung ausgeführt wird. Umgebungskomponenten werden entweder im Mandanten- oder im Kundenprojekt Ihrer Umgebung ausgeführt.
Cluster der Umgebung
Cluster der Umgebung ist ein VPC-nativer Google Kubernetes Engine-Cluster Ihrer Umgebung im Autopilot-Modus:
Standardmäßig aktiviert Cloud Composer automatische Knotenupgrades und automatische Knotenreparaturen, um den Cluster Ihrer Umgebung vor Sicherheitslücken zu schützen. Diese Vorgänge erfolgen während Wartungsfenstern, die Sie für Ihre Umgebung angeben.
Bucket der Umgebung
Der Bucket der Umgebung ist ein Cloud Storage-Bucket, in dem DAGs, Plug-ins, Datenabhängigkeiten und Airflow-Logs gespeichert werden. Der Bucket der Umgebung befindet sich im Kundenprojekt.
Wenn Sie Ihre DAG-Dateien in den Ordner /dags
Ihres Buckets hochladen, synchronisiert Cloud Composer die DAGs mit den Airflow-Komponenten Ihrer Umgebung.
Airflow-Webserver
Der Airflow-Webserver führt die Airflow-UI Ihrer Umgebung aus.
Cloud Composer gewährt Zugriff auf die Benutzeroberfläche basierend auf Nutzeridentitäten und IAM-Richtlinienbindungen, die für Nutzer definiert sind.
Airflow-Datenbank
Eine Airflow-Datenbank ist eine Cloud SQL-Instanz, die im Mandantenprojekt Ihrer Umgebung ausgeführt wird. Sie hostet die Airflow-Metadatendatenbank.
Zum Schutz vertraulicher Verbindungs- und Workflowinformationen lässt Cloud Composer den Datenbankzugriff nur auf das Dienstkonto Ihrer Umgebung zu.
Andere Airflow-Komponenten
Weitere Airflow-Komponenten, die in Ihrer Umgebung ausgeführt werden:
Airflow-Planer parsen DAG-Dateien, planen DAG-Ausführungen anhand des Zeitplanintervalls und stellen Aufgaben zur Ausführung durch Airflow-Worker in die Warteschlange. In Cloud Composer 2 werden Airflow-DAG-Prozessoren als Teil der Planungskomponenten ausgeführt.
Airflow-Trigger überwachen alle ausgesetzten Aufgaben in Ihrer Umgebung asynchron. Wenn Sie die Anzahl der Trigger in Ihrer Umgebung auf einen Wert über null festlegen, können Sie zurückstellbare Operatoren in Ihren DAGs verwenden.
Airflow-Worker führen Aufgaben aus, die von Airflow-Planern geplant wurden. Die minimale und maximale Anzahl an Workern in Ihrer Umgebung ändert sich dynamisch, je nach Anzahl der Aufgaben in der Warteschlange.
Architektur der öffentlichen IP-Umgebung
In einer öffentlichen IP-Umgebungsarchitektur für Cloud Composer 2:
- Im Mandantenprojekt werden eine Cloud SQL-Instanz und ein Cloud SQL-Speicher gehostet.
- Das Kundenprojekt hostet alle anderen Komponenten der Umgebung.
- Airflow-Planer und -Worker im Kundenprojekt kommunizieren über eine Cloud SQL-Proxy-Instanz im Kundenprojekt mit der Airflow-Datenbank.
Architektur einer privaten IP-Umgebung
In Cloud Composer 2 wird standardmäßig Private Service Connect verwendet, sodass Ihre privaten IP-Umgebungen intern ohne VPC-Peerings kommunizieren. Sie können in Ihrer Umgebung auch VPC-Peerings anstelle von Private Service Connect verwenden. Dies ist keine Standardoption.
In der Architektur der privaten IP-Umgebung:
- Im Mandantenprojekt werden eine Cloud SQL-Instanz und ein Cloud SQL-Speicher gehostet.
- Das Kundenprojekt hostet alle anderen Komponenten der Umgebung.
- Airflow-Planer und -Worker stellen über den konfigurierten PSC-Endpunkt eine Verbindung zur Airflow-Datenbank her.
Hochgradig resiliente Private-IP-Architektur
Hochgradig resiliente Cloud Composer-Umgebungen sind Cloud Composer 2-Umgebungen, die integrierte Redundanz- und Failover-Mechanismen verwenden, um die Anfälligkeit der Umgebung für Zonenausfälle und Ausfälle aufgrund von Single Points of Failure zu verringern.
In dieser Art von privater IP-Umgebung gilt Folgendes:
- Eine Cloud SQL-Instanz Ihrer Umgebung ist für Hochverfügbarkeit konfiguriert (regionale Instanz). Innerhalb einer regionalen Instanz besteht die Konfiguration aus einer primären Instanz und einer Standby-Instanz.
- In Ihrer Umgebung werden zwei Airflow-Planer, zwei Webserver und, falls Auslöser verwendet werden, mindestens zwei (insgesamt bis zu zehn) Auslöser ausgeführt. Diese Komponentenpaare werden in zwei separaten Zonen ausgeführt.
- Die Mindestanzahl der Worker ist auf zwei festgelegt und der Cluster Ihrer Umgebung verteilt Workerinstanzen auf die Zonen. Bei einem Zonenausfall werden die betroffenen Worker-Instanzen in einer anderen Zone neu geplant.
Einbindung in Cloud Logging und Cloud Monitoring
Cloud Composer kann in Cloud Logging und Cloud Monitoring Ihres Google Cloud Projekts eingebunden werden, sodass Sie eine zentrale Stelle für die Anzeige von Airflow- und DAG-Logs haben.
Cloud Monitoring sammelt und erfasst Messwerte, Ereignisse und Metadaten aus Cloud Composer, um mithilfe von Dashboards und Diagrammen aussagekräftige Informationen zu generieren.
Aufgrund des Streaming-Charakters von Cloud Logging können Sie alle Logs, die von Airflow-Komponenten gesendet werden, sofort aufrufen. Sie müssen also nicht warten, bis Airflow-Logs im Cloud Storage-Bucket Ihrer Umgebung angezeigt werden.
Wenn Sie die Anzahl der Logs in Ihrem Google Cloud Projekt begrenzen möchten, können Sie die Aufnahme aller Logs beenden. Deaktivieren Sie das Logging aber nicht.