Architecture et composants

Une instance Cloud Data Fusion s'exécute au sein d'une zone Compute Engine dans Google Cloud. Une instance est composée de plusieurs technologies Google Cloud, y compris Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk et Cloud Key Management Service.

Une instance Cloud Data Fusion est provisionnée dans une unité de location. Elle permet de créer et d'orchestrer des pipelines de données, ainsi que de gérer de manière centralisée les métadonnées. Elle s'exécute sur un cluster GKE au sein d'un projet locataire et utilise Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch et Cloud KMS pour stocker les métadonnées professionnelles, techniques et opérationnelles.

Les principaux composants de l'architecture Cloud Data Fusion sont détaillés dans les sections suivantes.

Projet locataire

L'ensemble des services requis pour créer et orchestrer des pipelines Cloud Data Fusion, ainsi que pour stocker les métadonnées de pipeline, est fourni dans un projet locataire, au sein d'une unité de location. Un projet locataire distinct est créé pour chaque projet client dans lequel des instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite de toutes les configurations de mise en réseau et de pare-feu du projet client.

Services de système

Il s'agit de l'ensemble des services utilisés par Cloud Data Fusion pour gérer le cycle de vie du pipeline, l'orchestration et les métadonnées. Cloud Data Fusion orchestre ces services à l'aide de GKE.

Interface utilisateur

L'interface utilisateur Cloud Data Fusion est une interface graphique permettant de développer, gérer et exécuter des pipelines de données, ainsi que de rechercher, afficher et gérer les métadonnées d'intégration. Elle s'exécute également dans le cluster GKE.

Le hub

Dans l'interface utilisateur de Cloud Data Fusion, vous pouvez cliquer sur Hub pour parcourir les plug-ins, les exemples de pipelines et d'autres intégrations. Lorsqu'une nouvelle version d'un plug-in est publiée, celle-ci est visible dans le Hub dans toutes les instances compatibles (même si l'instance a été créée avant la publication du plug-in).

Stockage de métadonnées

Cloud Data Fusion utilise Cloud Storage, Cloud SQL, Persistent Disk et Elasticsearch pour stocker des métadonnées techniques, professionnelles et opérationnelles.

Espaces de noms

Vous pouvez utiliser des espaces de noms pour partitionner une instance Cloud Data Fusion afin d'isoler les applications et les données dans vos environnements de conception et d'exécution. Pour en savoir plus, consultez la section Espaces de noms.

Domaine

Lorsque vous utilisez une adresse IP publique, l'interface utilisateur et les services de backend de Cloud Data Fusion s'exécutent sur le domaine datafusion.cdap.app. Ils sont exposés via HTTPS et se servent d'un certificat SSL pour chiffrer la connexion.

Exécution de pipeline

Cloud Data Fusion exécute des pipelines à l'aide de clusters Dataproc. Cloud Data Fusion provisionne automatiquement les clusters éphémères Dataproc, y fait fonctionner des pipelines, puis les supprime à la fin de l'exécution du pipeline. Vous pouvez également choisir d'exécuter des pipelines sur des clusters Dataproc existants.

Les clusters Dataproc et les buckets Cloud Storage existent dans la même région que l'instance Cloud Data Fusion. Pour en savoir plus, consultez la section Emplacement des données dans les conditions générales des services et les questions fréquentes sur Cloud Data Fusion.

Suite Google Cloud Operations

Vous pouvez éventuellement choisir d'envoyer des journaux à la suite Google Cloud Operations. Pour les instances configurées pour s'intégrer à la suite Google Cloud Operations, deux types de journaux sont transmis à la suite Google Cloud Operations :

  1. Journaux d'audit : pour toutes les opérations de gestion d'instance, Cloud Data Fusion émet des journaux d'audit dans la suite Google Cloud Operations.

  2. Journaux de pipeline : vous pouvez rechercher des journaux à partir de pipelines Cloud Data Fusion dans les journaux de clusters Dataproc de la suite Google Cloud Operations ou sur la page Cloud Fusion Pipeline Studio de Cloud Data Fusion où vous exécutez votre pipeline.

Découvrez comment utiliser les journaux dans Cloud Data Fusion.

Aperçu

Lorsque vous créez un pipeline de données sur la page Studio de Cloud Data Fusion, vous pouvez cliquer sur Prévisualiser pour afficher une partie des données issues des sources du pipeline. Dans l'aperçu, un pipeline s'exécute dans le projet locataire. Lorsque vous le déployez, il s'exécute dans le projet client sur le profil de calcul approprié. Après avoir déployé le pipeline, vous devez le dupliquer pour utiliser la fonctionnalité d'aperçu.

Étapes suivantes