Architecture et composants

Une instance Cloud Data Fusion s'exécute au sein d'une zone Compute Engine dans Google Cloud. Une instance est composée de plusieurs technologies Google Cloud, y compris Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk et Cloud Key Management Service.

Une instance Cloud Data Fusion est provisionnée dans une unité de location. Elle permet de créer et d'orchestrer des pipelines de données, ainsi que de gérer de manière centralisée les métadonnées. Elle s'exécute sur un cluster GKE au sein d'un projet locataire et utilise Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch et Cloud KMS pour stocker les métadonnées professionnelles, techniques et opérationnelles.

Les principaux composants de l'architecture Cloud Data Fusion sont détaillés dans les sections suivantes.

Projet locataire

L'ensemble des services requis pour créer et orchestrer des pipelines Cloud Data Fusion, ainsi que pour stocker les métadonnées de pipeline, est fourni dans un projet locataire, au sein d'une unité de location. Un projet locataire distinct est créé pour chaque projet client dans lequel des instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite de toutes les configurations de mise en réseau et de pare-feu du projet client.

Services de système

Il s'agit de l'ensemble des services utilisés par Cloud Data Fusion pour gérer le cycle de vie du pipeline, l'orchestration et les métadonnées. Cloud Data Fusion orchestre ces services à l'aide de GKE.

Interface utilisateur

L'interface utilisateur Cloud Data Fusion est une interface graphique permettant de développer, gérer et exécuter des pipelines de données, ainsi que de rechercher, afficher et gérer les métadonnées d'intégration. Elle s'exécute également dans le cluster GKE.

Stockage de métadonnées

Cloud Data Fusion utilise Cloud Storage, Cloud SQL, Persistent Disk et Elasticsearch pour stocker des métadonnées techniques, professionnelles et opérationnelles.

Espaces de noms

Vous pouvez utiliser les espaces de noms pour partitionner une instance Cloud Data Fusion afin d'isoler les applications et les données dans vos environnements de conception et d'exécution. Pour en savoir plus, consultez la page Espaces de noms.

Domaine

Lorsque vous utilisez une adresse IP publique, l'interface utilisateur et les services de backend de Cloud Data Fusion s'exécutent sur le domaine datafusion.cdap.app. Ils sont exposés via HTTPS et se servent d'un certificat SSL pour chiffrer la connexion.

Exécution de pipeline

Cloud Data Fusion exécute des pipelines à l'aide de clusters Dataproc. Cloud Data Fusion provisionne automatiquement les clusters éphémères Dataproc, y fait fonctionner des pipelines, puis les supprime à la fin de l'exécution du pipeline. Vous pouvez également choisir d'exécuter des pipelines sur des clusters Dataproc existants.

Les clusters Dataproc et les buckets Cloud Storage existent dans la même région que l'instance Cloud Data Fusion. Pour en savoir plus, consultez la section Emplacement des données dans les conditions d'utilisation générales, ainsi que les Questions fréquentes sur Cloud Data Fusion.

Suite Google Cloud Operations

Vous pouvez éventuellement choisir d'envoyer des journaux à la suite Google Cloud Operations. Pour les instances configurées pour s'intégrer à la suite Google Cloud Operations, deux types de journaux sont transmis à la suite Google Cloud Operations :

  1. Journaux d'audit : pour toutes les opérations de gestion d'instance, Cloud Data Fusion émet des journaux d'audit dans la suite Google Cloud Operations.

  2. Journaux de pipeline:vous pouvez trouver des journaux des pipelines Cloud Data Fusion dans les journaux de cluster Dataproc de la suite Google Cloud Operations ou sur la page du pipeline Cloud Data Fusion où vous pouvez exécuter votre pipeline.

Découvrez comment utiliser les journaux dans Cloud Data Fusion.

Étape suivante