Données stockées dans Cloud Storage

Cette page décrit les données que Cloud Composer stocke pour votre environnement dans Cloud Storage.

Lorsque vous créez un environnement, Cloud Composer crée un bucket Cloud Storage et l'associe à votre environnement. Le nom du bucket est basé sur la région, le nom et un ID aléatoire de l'environnement, par exemple us-central1-b1-6efannnn-bucket.

Cloud Composer stocke le code source pour vos workflows (DAG) et leurs dépendances dans des dossiers spécifiques de Cloud Storage, et utilise Cloud Storage FUSE pour mapper les dossiers aux instances Airflow dans l'environnement Cloud Composer.

Dossiers dans le bucket Cloud Storage

DossierDescriptionChemin d'accès au stockageRépertoire mappé
DAG Stocke les DAG pour votre environnement. Seuls les DAG de ce dossier sont planifiés pour votre environnement. gs://bucket-name/dags /home/airflow/gcs/dags
Plug-ins Stocke vos plug-ins personnalisés, tels que des opérateurs Airflow, des hooks, des capteurs ou des interfaces en interne et personnalisés. gs://bucket-name/plugins /home/airflow/gcs/plugins
Données Stocke les données créées et utilisées par les tâches. Ce dossier est installé sur tous les nœuds de calcul. gs://bucket-name/data /home/airflow/gcs/data
Journaux Stocke les journaux Airflow pour les tâches. Les journaux sont également disponibles dans l'interface Web Airflow. gs://bucket-name/logs /home/airflow/gcs/logs

Remarques relatives à la capacité

DAG et plug-ins : par défaut, Cloud Composer prévoit une capacité de 100 Go pour votre environnement, ainsi que les dossiers dags/ et plugins/.

Pour éviter l'échec des workflows, stockez les DAG, plug-ins et modules Python dans les dossiers dags/ ou plugins/, même si les modules Python ne contiennent pas de DAG ni de plug-ins. Par exemple, vous devez stocker le fichier py_file référencé par un opérateur DataFlowPythonOperator dans les dossiers dags/ ou plugins/.

Données et journaux : les dossiers data/ et logs/ ne sont pas soumis aux limites de capacité.

Pour éviter une erreur de serveur Web, assurez-vous que les données nécessaires au serveur Web pour l'analyse d'un DAG (non exécuté) sont disponibles dans le dossier dags/. Sinon, le serveur Web ne pourra pas accéder aux données, ni charger l'interface Web Airflow.

Synchronisation des données

Lorsque vous modifiez des DAG ou des plug-ins dans le bucket Cloud Storage, Cloud Composer synchronise les données sur tous les nœuds du cluster.

Cloud Composer synchronise les dossiers dags/ et plugins/ de manière unidirectionnelle en les copiant localement. La synchronisation unidirectionnelle signifie que les modifications locales comprises dans ces dossiers sont remplacées.

Les dossiers data/ et logs/ se synchronisent de manière bidirectionnelle à l'aide de Cloud Storage FUSE.

Les données ne sont pas synchronisées avec le serveur Web en raison d'une capacité limitée et du fait que le serveur Web analyse les DAG dans un environnement Cloud Composer, mais ne les exécute pas. Ce sont les nœuds de calcul qui exécutent les DAG.

Étape suivante