Architecture et composants

Une instance Cloud Data Fusion s'exécute au sein d'une zone Compute Engine dans Google Cloud. Une instance est composée de plusieurs technologies Google Cloud, parmi lesquelles Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk et Cloud Key Management Service.

Une instance Cloud Data Fusion est provisionnée dans une unité de location. Il permet de créer et d'orchestrer des pipelines de données, ainsi que de gérer de manière centralisée les métadonnées. Une instance Cloud Data Fusion s'exécute sur un cluster GKE au sein d'un projet locataire et utilise Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch et Cloud KMS pour stocker des métadonnées métier, techniques et opérationnelles.

Les principaux composants de l'architecture Cloud Data Fusion sont détaillés dans les sections suivantes.

Projet locataire

L'ensemble des services requis pour créer et orchestrer des pipelines Cloud Data Fusion, ainsi que pour stocker les métadonnées de pipeline, est fourni dans un projet locataire, au sein d'une unité de location. Un projet locataire distinct est créé pour chaque projet client dans lequel des instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite de toutes les configurations de mise en réseau et de pare-feu du projet client.

Plan de contrôle

Le plan de contrôle est un ensemble d'opérations d'API traitant de l'instance Cloud Data Fusion elle-même, comme sa création, sa suppression, son redémarrage et sa mise à jour.

Plan de données

Le plan de données fait référence à un ensemble d'opérations de l'API REST qui s'occupent des principales fonctionnalités de Cloud Data Fusion, telles que la création, l'exécution et la surveillance des pipelines et des artefacts associés. Par exemple, vous créez ou arrêtez un pipeline avec des opérations de plan de données. Pour en savoir plus, consultez la documentation de référence de CDAP.

Services de système

Ensemble de services utilisé par Cloud Data Fusion pour gérer le cycle de vie du pipeline, l'orchestration et les métadonnées Cloud Data Fusion orchestre ces services à l'aide de GKE.

Interface Web

L'interface Web de Cloud Data Fusion est une interface graphique permettant de développer, de gérer et d'exécuter des pipelines de données, ainsi que de rechercher, d'afficher et de gérer les métadonnées d'intégration. L'interface Web s'exécute également dans le cluster GKE.

Hub

Dans l'interface Web de Cloud Data Fusion, cliquez sur Hub pour parcourir des plug-ins, des exemples de pipelines et d'autres intégrations. Lorsqu'une nouvelle version d'un plug-in est publiée, elle est visible dans le Hub dans toutes les instances compatibles. Cela s'applique même si l'instance a été créée avant la publication du plug-in.

Stockage de métadonnées

Cloud Data Fusion utilise Cloud Storage, Cloud SQL, Persistent Disk et Elasticsearch pour stocker des métadonnées techniques, professionnelles et opérationnelles.

Espaces de noms

Vous pouvez utiliser des espaces de noms pour partitionner une instance Cloud Data Fusion afin d'isoler les applications et les données dans vos environnements de conception et d'exécution. Pour en savoir plus, consultez la section Espaces de noms.

Domaine

Lorsque vous utilisez une adresse IP publique, l'interface Web et les services de backend de Cloud Data Fusion s'exécutent sur le domaine datafusion.cdap.app. Ils sont exposés via HTTPS et utilisent un certificat SSL pour chiffrer la connexion.

Exécution de pipeline

Cloud Data Fusion exécute des pipelines à l'aide de clusters Dataproc. Cloud Data Fusion provisionne automatiquement les clusters éphémères Dataproc, y fait fonctionner des pipelines, puis les supprime à la fin de l'exécution du pipeline. Vous pouvez également choisir d'exécuter des pipelines sur des clusters Dataproc existants.

Les clusters Dataproc et les buckets Cloud Storage existent dans la même région que l'instance Cloud Data Fusion. Pour en savoir plus, consultez la section Emplacement des données dans les conditions d'utilisation générales et les questions fréquentes sur Cloud Data Fusion.

Suite Google Cloud Operations

Vous pouvez éventuellement choisir d'envoyer des journaux à la suite Google Cloud Operations. Pour les instances configurées pour s'intégrer à la suite Google Cloud Operations, deux types de journaux sont transmis à la suite Google Cloud Operations :

  1. Journaux d'audit : pour toutes les opérations de gestion d'instance, Cloud Data Fusion émet des journaux d'audit dans la suite Google Cloud Operations.

  2. Journaux de pipeline:vous pouvez trouver des journaux à partir des éléments suivants:

    • Les pipelines Cloud Data Fusion dans les journaux de cluster Dataproc dans la suite Google Cloud Operations
    • Page Pipeline Studio de Cloud Data Fusion où vous exécutez votre pipeline

Découvrez comment utiliser les journaux dans Cloud Data Fusion.

Preview

Lorsque vous créez un pipeline de données sur la page Studio de Cloud Data Fusion, pour afficher une partie des données provenant des sources du pipeline, cliquez sur Aperçu.

Un pipeline en preview s'exécute dans le projet locataire. Lorsque vous le déployez, il s'exécute dans le projet client sur le profil de calcul approprié. Après avoir déployé le pipeline, vous devez le dupliquer pour utiliser la fonctionnalité en preview.

Étapes suivantes