In Cloud Storage gespeicherte Daten

Cloud Composer 1 | Cloud Composer 2

Auf dieser Seite wird erläutert, welche Daten von Cloud Composer für Ihre Umgebung in Cloud Storage gespeichert werden.

Beim Erstellen einer Umgebung wird von Cloud Composer ein Cloud Storage-Bucket erstellt und Ihrer Umgebung zugeordnet. Der Name dieses Buckets basiert auf der Umgebungsregion, dem Namen und einer zufälligen ID wie z. B. us-central1-b1-6efannnn-bucket.

Cloud Composer speichert den Quellcode für Ihre Workflows (DAGs) und deren Abhängigkeiten in bestimmten Ordnern in Cloud Storage und weist die Ordner mithilfe von Cloud Storage FUSE den Airflow-Instanzen in Ihrer Cloud Composer-Umgebung zu.

Ordner im Cloud Storage-Bucket

Ordner Speicherpfad Zugeordnetes Verzeichnis Beschreibung
DAG gs://bucket-name/dags /home/airflow/gcs/dags Speichert die DAGs für Ihre Umgebung. Nur die DAGs in diesem Ordner sind für Ihre Umgebung geplant.
Plug-ins gs://bucket-name/plugins /home/airflow/gcs/plugins Speichert Ihre benutzerdefinierten Plug-ins, wie z. B. benutzerdefinierte interne Airflow-Operatoren, Hooks, Sensoren oder Oberflächen.
Daten gs://bucket-name/data /home/airflow/gcs/data Speichert die Daten, die Aufgaben generieren und verwenden. Dieser Ordner wird auf allen Arbeitsknoten bereitgestellt.
Logs gs://bucket-name/logs Speichert die Airflow-Logs für Aufgaben. Logs sind auch in der Airflow-Weboberfläche verfügbar.

Überlegungen zur Kapazität

DAGs und Plug-ins: Standardmäßig stellt Cloud Composer eine Kapazität von 100 GB für Ihre Umgebung sowie für die Ordner dags/ und plugins/ bereit.

Speichern Sie zur Vermeidung von Workflowfehlern Ihre DAGs, Plug-ins und Python-Module im Ordner dags/ oder plugins/. Dies gilt auch dann, wenn die Python-Module keine DAGs oder Plug-ins enthalten. Speichern Sie beispielsweise die Datei py_file, auf die DataFlowPythonOperator verweist, in dags/ oder plugins/.

Daten und Logs: Die Ordner data/ und logs/ unterliegen keinen Kapazitätslimits.

Zur Vermeidung von Webserverfehlern müssen Sie dafür sorgen, dass die Daten, die der Webserver zum Parsen (also nicht zum Ausführen) eines DAG benötigt, im Ordner dags/ verfügbar sind. Andernfalls kann der Webserver nicht auf die Daten zugreifen bzw. die Airflow-Weboberfläche laden.

Datensynchronisierung

Wenn Sie DAGs oder Plug-ins im Cloud Storage-Bucket ändern, synchronisiert Cloud Composer die Daten auf allen Knoten im Cluster.

Cloud Composer synchronisiert die Ordner dags/ und plugins/ unidirektional durch lokales Kopieren. Unidirektionale Synchronisierung bedeutet, dass lokale Änderungen in diesen Ordnern überschrieben werden.

Die Ordner data/ und logs/ werden mit Cloud Storage FUSE bidirektional synchronisiert.

Daten werden aufgrund begrenzter Kapazität nicht auf dem Webserver synchronisiert. Ein weiterer Grund besteht darin, dass der Webserver DAGs in einer Cloud Composer-Umgebung zwar analysiert, aber nicht ausführt. Die DAGs werden von den Workern ausgeführt.

Nächste Schritte