In Cloud Storage gespeicherte Daten

Auf dieser Seite wird erläutert, welche Daten von Cloud Composer für Ihre Umgebung in Cloud Storage gespeichert werden.

Beim Erstellen einer Umgebung wird von Cloud Composer ein Cloud Storage-Bucket erstellt und Ihrer Umgebung zugeordnet. Der Name dieses Buckets basiert auf der Umgebungsregion, dem Namen und einer zufälligen ID wie z. B. us-central1-b1-6efannnn-bucket.

Cloud Composer speichert den Quellcode für Ihre Workflows (DAGs) und deren Abhängigkeiten in bestimmten Ordnern in Cloud Storage und weist die Ordner mithilfe von Cloud Storage FUSE den Airflow-Instanzen in Ihrer Cloud Composer-Umgebung zu.

Ordner im Cloud Storage-Bucket

OrdnerBeschreibungSpeicherpfadZugeordnetes Verzeichnis
DAG Speichert die DAGs für Ihre Umgebung. Nur die DAGs in diesem Ordner sind für Ihre Umgebung geplant. gs://bucket-name/dags /home/airflow/gcs/dags
Plug-ins Speichert Ihre benutzerdefinierten Plug-ins, wie z. B. benutzerdefinierte interne Airflow-Operatoren, Hooks, Sensoren oder Oberflächen. gs://bucket-name/plugins /home/airflow/gcs/plugins
Daten Speichert die Daten, die Aufgaben generieren und verwenden. Dieser Ordner wird auf allen Arbeitsknoten bereitgestellt. gs://bucket-name/data /home/airflow/gcs/data
Logs Speichert die Airflow-Logs für Aufgaben. Logs sind auch in der Airflow-Weboberfläche verfügbar. gs://bucket-name/logs /home/airflow/gcs/logs

Überlegungen zur Kapazität

DAGs und Plug-ins: Standardmäßig stellt Cloud Composer eine Kapazität von 100 GB für Ihre Umgebung sowie für die Ordner dags/ und plugins/ bereit.

Speichern Sie zur Vermeidung von Workflowfehlern Ihre DAGs, Plug-ins und Python-Module im Ordner dags/ oder plugins/. Dies gilt auch dann, wenn die Python-Module keine DAGs oder Plug-ins enthalten. Speichern Sie beispielsweise die Datei py_file, auf die DataFlowPythonOperator verweist, in dags/ oder plugins/.

Daten und Logs: Die Ordner data/ und logs/ unterliegen keinen Kapazitätslimits.

Zur Vermeidung von Webserverfehlern müssen Sie dafür sorgen, dass die Daten, die der Webserver zum Parsen (also nicht zum Ausführen) eines DAG benötigt, im Ordner dags/ verfügbar sind. Andernfalls kann der Webserver nicht auf die Daten zugreifen bzw. die Airflow-Weboberfläche laden.

Datensynchronisierung

Wenn Sie DAGs oder Plug-ins im Cloud Storage-Bucket ändern, synchronisiert Cloud Composer die Daten auf allen Knoten im Cluster.

Cloud Composer synchronisiert die Ordner dags/ und plugins/ unidirektional durch lokales Kopieren. Unidirektionale Synchronisierung bedeutet, dass lokale Änderungen in diesen Ordnern überschrieben werden.

Die Ordner data/ und logs/ werden mit Cloud Storage FUSE bidirektional synchronisiert.

Daten werden aufgrund begrenzter Kapazität nicht auf dem Webserver synchronisiert. Ein weiterer Grund besteht darin, dass der Webserver DAGs in einer Cloud Composer-Umgebung zwar analysiert, aber nicht ausführt. Die DAGs werden von den Workern ausgeführt.

Nächste Schritte