Présentation de Cloud Composer

Cloud Composer 1 | Cloud Composer 2

Cloud Composer est un service d'orchestration de workflows entièrement géré qui vous permet de créer, planifier, surveiller et gérer des workflows couvrant des clouds et des centres de données sur site.

Cloud Composer est basé sur le projet Open Source populaire Apache Airflow et fonctionne à l'aide du langage de programmation Python.

En utilisant Cloud Composer au lieu d'une instance locale d'Apache Airflow, vous bénéficiez du meilleur d'Airflow, sans installation ni gestion. Cloud Composer vous aide à créer rapidement des environnements Airflow et à utiliser des outils Airflow natifs, tels que l'interface Web et les outils de ligne de commande puissants, vous permettant ainsi de vous concentrer sur vos workflows plutôt que sur votre infrastructure.

Workflows, DAG et tâches

En matière d'analyse de données, un workflow représente une série de tâches permettant d'ingérer, de transformer, d'analyser ou d'utiliser des données. Dans Airflow, les workflows sont créés à l'aide de "graphes orientés acycliques" (DAG, Directed Acyclic Graph).

Relation entre les DAG et les tâches
Figure 1. Relation entre les DAG et les tâches

Un DAG est un ensemble de tâches que vous souhaitez programmer et exécuter, organisées de manière à refléter leurs relations et leurs dépendances. Les DAG sont créés dans des scripts Python, qui définissent la structure du DAG (tâches et dépendances) à l'aide de code.

Chaque tâche d'un DAG peut représenter presque n'importe quel élément. Par exemple, une tâche peut exécuter l'une des fonctions suivantes:

  • Préparer des données pour l'ingestion
  • Surveiller une API
  • Envoyer un e-mail
  • Exécuter un pipeline

Le DAG ne doit pas se préoccuper de la fonction de chaque tâche constitutive. Il vise à s'assurer que chaque tâche est exécutée au bon moment, dans le bon ordre et avec la bonne gestion des problèmes.

Pour en savoir plus sur les DAG et les tâches, consultez la documentation Apache Airflow.

Environnements Cloud Composer

Pour exécuter des workflows, vous devez d'abord créer un environnement. Airflow dépend de nombreux microservices pour fonctionner. Par conséquent, Cloud Composer provisionne des composants Google Cloud pour exécuter vos workflows. Ces composants sont collectivement appelés environnements Cloud Composer.

Les environnements sont des déploiements Airflow autonomes basés sur Google Kubernetes Engine. Ils fonctionnent avec d'autres services Google Cloud à l'aide de connecteurs intégrés à Airflow. Vous pouvez créer un ou plusieurs environnements dans un seul projet Google Cloud. Vous pouvez créer des environnements Cloud Composer dans n'importe quelle région compatible.

Pour en savoir plus sur les composants d'un environnement, consultez la page Architecture de l'environnement.

Quelle version Apache Airflow est utilisée par Cloud Composer ?

Cloud Composer est compatible avec Airflow 1 et Airflow 2.

Les environnements Cloud Composer sont basés sur des images Cloud Composer. Lorsque vous créez un environnement, vous pouvez sélectionner une image avec une version Airflow spécifique.

Vous contrôlez la version Apache Airflow de votre environnement. Vous pouvez décider de mettre à niveau votre environnement vers une version plus récente de l'image Cloud Composer. Chaque version de Cloud Composer est compatible avec plusieurs versions d'Apache Airflow.

Puis-je utiliser l'interface utilisateur et la CLI natives d'Airlfow ?

Vous pouvez accéder à l'interface Web Apache Airflow de votre environnement. Chacun de vos environnements possède sa propre interface utilisateur Airflow. Pour en savoir plus sur l'accès à l'interface utilisateur Airflow, consultez la page Interface Web Airflow.

Pour exécuter des commandes de CLI Airflow dans vos environnements, utilisez les commandes gcloud. Pour en savoir plus sur l'exécution de commandes CLI Airflow dans les environnements Cloud Composer, consultez la page Interface de ligne de commande Airflow.

Étape suivante