Vorteile von Cloud Composer

Cloud Composer 1 Cloud Composer 2

Auf dieser Seite erhalten Sie einen Überblick über die Features und das Leistungsspektrum von Cloud Composer.

Weitere Informationen zu den Unterschieden zwischen Cloud Composer 1 und Cloud Composer 2 finden Sie in der Versionsverwaltung.

Cloud Composer ist ein verwalteter Apache Airflow-Dienst, mit dem Sie Workflows erstellen, planen, überwachen und verwalten können.

Cloud Composer-Umgebungen

Eine Cloud Composer-Umgebung ist ein Wrapper um Apache Airflow. Cloud Composer erstellt die folgenden Komponenten für jede Umgebung:

  • GKE-Cluster: Der Airflow-Planer, Worker und die Redis-Warteschlange werden als GKE-Arbeitslasten in einem einzelnen Cluster ausgeführt und sind für die Verarbeitung und Ausführung von DAGs verantwortlich. Der Cluster hostet auch andere Cloud Composer-Komponenten wie den Composer-Agent und das Airflow-Monitoring. Damit lassen sich die Cloud Composer-Umgebung verwalten, Logs im Cloud Logging speichern und Messwerte zum Hochladen in Cloud Monitoring erfassen.
  • Webserver: Der Webserver führt die Apache Airflow-Weboberfläche aus. Weitere Informationen finden Sie unter Airflow-Weboberfläche.
  • Datenbank: Die Datenbank enthält die Apache Airflow-Metadaten.
  • Cloud Storage-Bucket: Cloud Composer ordnet der Umgebung einen Cloud Storage-Bucket zu. In diesem Bucket werden die DAGs, Logs, benutzerdefinierten Plug-ins und Daten für die Umgebung gespeichert. Weitere Informationen zum Storage-Bucket für Cloud Composer finden Sie unter In Cloud Storage gespeicherte Daten.

Airflow-Verwaltung

Für den Zugriff und die Verwaltung Ihrer Airflow-Umgebungen können Sie die folgenden nativen Airflow-Tools verwenden:

  • Weboberfläche: Sie können über die Google Cloud Console oder über eine direkte URL mit den entsprechenden Berechtigungen auf die Airflow-Weboberfläche zugreifen. Weitere Informationen finden Sie unter Airflow-Weboberfläche.
  • Befehlszeilentools: Nachdem Sie die Google Cloud CLI installiert haben, können Sie gcloud composer environments-Befehle ausführen, um Airflow-Befehlszeilenbefehle an Cloud Composer-Umgebungen auszugeben. Informationen dazu finden Sie unter Airflow-Befehlszeile.

Zusätzlich zu nativen Tools bieten die REST API und die RPC API von Cloud Composer programmatischen Zugriff auf Ihre Airflow-Umgebungen. Weitere Informationen finden Sie unter APIs und Abrechnung.

Airflow-Konfiguration

Im Allgemeinen entsprechen die Konfigurationen, die Cloud Composer für Apache Airflow bereitstellt, den Konfigurationen für ein lokal gehostetes Airflow-Deployment. Einige Airflow-Konfigurationen sind in Cloud Composer vorkonfiguriert. Deren Konfigurationsattribute können nicht geändert werden. Andere Konfigurationen können Sie beim Erstellen oder Aktualisieren der Umgebung festlegen. Weitere Informationen finden Sie unter Blockierte Airflow-Konfigurationen.

Airflow-DAGs (Workflows)

Ein Apache Airflow-DAG ist ein Workflow, also eine Sammlung von Aufgaben mit zusätzlichen Aufgabenabhängigkeiten. Cloud Composer verwendet Cloud Storage zum Speichern von DAGs. Um DAGs zu Ihrer Cloud Composer-Umgebung hinzuzufügen oder daraus zu entfernen, müssen Sie die DAGs dem der Umgebung zugeordneten Bucket hinzufügen oder daraus entfernen. Nachdem Sie DAGs in den Storage-Bucket verschoben haben, werden DAGs automatisch in Ihrer Umgebung hinzugefügt und geplant.

DAGs können nicht nur geplant, sondern auch manuell oder ereignisgesteuert ausgelöst werden, beispielsweise bei Änderungen am zugeordneten Cloud Storage-Bucket. Weitere Informationen finden Sie unter DAGs auslösen.

Plug-ins

Sie können benutzerdefinierte Plug-ins, wie z. B. benutzerdefinierte interne Apache Airflow-Operatoren, Hooks, Sensoren oder Oberflächen, in Ihrer Cloud Composer-Umgebung installieren. Weitere Informationen finden Sie unter Benutzerdefinierte Plug-ins installieren.

Python-Abhängigkeiten

Sie können Python-Abhängigkeiten aus dem Python-Paketindex in Ihrer Umgebung oder aus einem privaten Paket-Repository installieren. Weitere Informationen finden Sie unter Python-Abhängigkeiten installieren.

Wenn die Abhängigkeiten nicht im Paketindex enthalten sind, können Sie auch das Plug-in-Feature verwenden.

Zugriffssteuerung

Sie verwalten die Sicherheit auf der Google Cloud-Projektebene und können IAM (Identity and Access Management)-Rollen zuweisen, die verhindern, dass einzelne Nutzer Umgebungen ändern oder erstellen. Nutzer ohne Zugriff auf Ihr Projekt und ohne entsprechende IAM-Rolle für Cloud Composer können nicht auf Ihre Umgebungen zugreifen. Weitere Informationen finden Sie unter Zugriffssteuerung.

Logging und Monitoring

Sie können Airflow-Logs, die einzelnen DAG-Aufgaben zugeordnet sind, in der Airflow-Weboberfläche und im logs-Ordner des Cloud Storage-Buckets der Umgebung anzeigen.

Streaming-Logs sind für Cloud Composer verfügbar. Weitere Informationen finden Sie unter Cloud Composer-Umgebungen überwachen.

Cloud Composer bietet für Ihre Google Cloud-Projekte auch Audit-Logs, z. B. zu Administratoraktivitäten. Weitere Informationen finden Sie unter Audit-Logs aufrufen.

Netzwerk und Sicherheit

Cloud Composer stellt standardmäßig einen VPC-nativen Google Kubernetes Engine-Cluster im Standardmodus bereit.

Für zusätzliche Sicherheit und mehr Flexibilität im Netzwerk unterstützt Cloud Composer auch die im Folgenden aufgeführten Features.

Freigegebene VPC

Eine freigegebene VPC ermöglicht das Verwalten freigegebener Netzwerkressourcen über ein zentrales Hostprojekt, um projektübergreifend einheitliche Netzwerkrichtlinien zu erzwingen.

Ist Cloud Composer Bestandteil einer freigegebenen VPC, befindet sich die Cloud Composer-Umgebung in einem Dienstprojekt und kann Dienste aufrufen, die in anderen Google-Cloud-Projekten gehostet werden. Ressourcen innerhalb Ihrer Dienstprojekte kommunizieren sicher über Projektgrenzen hinweg über interne IP-Adressen. Informationen zu Netzwerk- und Hostprojektanforderungen finden Sie unter Freigegebene VPC konfigurieren.

VPC-native Umgebung in Cloud Composer

In einer VPC-nativen Umgebung sind Pod- und Dienst-IP-Adressen im GKE-Cluster nativ im Google Cloud-Netzwerk routingfähig, auch über VPC-Netzwerk-Peering.

In dieser Konfiguration stellt Cloud Composer in Ihrer Umgebung einen VPC-nativen GKE-Cluster mit Alias-IP-Adressen bereit. Wenn Sie VPC-native Cluster verwenden, wird von GKE automatisch ein sekundärer Bereich ausgewählt. Für bestimmte Netzwerkanforderungen können Sie bei der Konfiguration Ihrer Cloud Composer-Umgebung für Ihre GKE-Pods und GKE-Dienste auch die sekundären Bereiche konfigurieren.

Private-IP-Umgebung in Cloud Composer

Mit einer privaten IP-Adresse sind Cloud Composer-Workflows vollständig vom öffentlichen Internet getrennt.

In dieser Konfiguration stellt Cloud Composer im Kundenprojekt einen VPC-nativen GKE-Cluster mit Alias-IP-Adressen bereit. Der GKE-Cluster für die Umgebung wird als privater Cluster konfiguriert, während für die Cloud SQL-Instanz private IP-Adressen konfiguriert werden.

Cloud Composer erstellt außerdem eine Peering-Verbindung zwischen dem VPC-Netzwerk des Kundenprojekts und dem VPC-Netzwerk des Mandantenprojekts.

Data Lineage-Einbindung in Dataplex

Das Ausführen von Cloud Composer-DAGs kann häufig zum Erstellen oder Aktualisieren von Datenquellen wie BigQuery-Tabellen im Projekt führen. Die Datenherkunft ist ein Dataplex-Feature, mit dem Sie verfolgen können, wie Daten sich durch Ihre Systeme bewegen: woher die Daten stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden.

Weitere Informationen finden Sie in der Dataplex-Dokumentation unter Data Lineage-Integration und Informationen zu Data Lineage.

Das ist neu