Présentation de Cloud Data Fusion

Cloud Data Fusion est un service d'intégration de données d'entreprise cloud natif et entièrement géré qui permet de créer et de gérer rapidement des pipelines de données. L'interface Web de Cloud Data Fusion vous permet de créer des solutions d'intégration de données évolutives. Il vous permet de vous connecter à différentes sources de données, de transformer les données, puis de les transférer vers différents systèmes de destination, sans avoir à gérer l'infrastructure.

Cloud Data Fusion s'appuie sur le projet Open Source CDAP.

Premiers pas avec Cloud Data Fusion

Vous pouvez commencer à explorer Cloud Data Fusion en quelques minutes.

Découvrir Cloud Data Fusion

Les principaux composants de Cloud Data Fusion sont expliqués dans les sections suivantes.

Projet locataire

L'ensemble des services requis pour créer et orchestrer des pipelines Cloud Data Fusion et stocker les métadonnées de pipeline est provisionné dans un projet locataire, au sein d'une unité de location. Un projet locataire distinct est créé pour chaque projet client dans lequel des instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite de toutes les configurations de mise en réseau et de pare-feu du projet client.

Cloud Data Fusion: console

La console Cloud Data Fusion, également appelée plan de contrôle, est un ensemble d'opérations d'API et une interface Web qui gère l'instance Cloud Data Fusion elle-même, comme sa création, sa suppression, son redémarrage et sa mise à jour.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, également appelé plan de données, est un ensemble d'opérations d'API REST et d'interface Web qui gèrent la création, l'exécution et la gestion des pipelines et des artefacts associés.

Concepts

Cette section présente certains des concepts fondamentaux de Cloud Data Fusion.

Concept Description
Instances Cloud Data Fusion
  • Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion. Pour commencer à utiliser Cloud Data Fusion, vous devez créer une instance Cloud Data Fusion via la console Google Cloud.
  • Vous pouvez créer plusieurs instances dans un même projet de la console Google Cloud et spécifier la région Google Cloud dans laquelle créer vos instances Cloud Data Fusion.
  • En fonction de vos exigences et de vos contraintes de coût, vous pouvez créer une instance Developer, Basic ou Enterprise.
  • Chaque instance Cloud Data Fusion contient un déploiement Cloud Data Fusion unique et indépendant qui comprend un ensemble de services qui gèrent le cycle de vie des pipelines, l'orchestration, la coordination et la gestion des métadonnées. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.
Espace de noms Un espace de noms est un regroupement logique d'applications, de données et des métadonnées associées dans une instance Cloud Data Fusion. Vous pouvez considérer les espaces de noms comme un partitionnement de l'instance. Dans une seule instance, un espace de noms stocke les données et les métadonnées d'une entité indépendamment des autres espaces de noms.
Pipeline
  • Un pipeline est un moyen de concevoir visuellement des données et de contrôler des flux pour extraire, transformer, combiner, agréger et charger des données à partir de diverses sources de données sur site et dans le cloud.
  • La création de pipelines vous permet de créer des workflows de traitement de données complexes qui peuvent vous aider à résoudre les problèmes d'ingestion, d'intégration et de migration des données. Selon vos besoins, vous pouvez utiliser Cloud Data Fusion pour créer des pipelines par lot et en temps réel.
  • Les pipelines vous permettent d'exprimer vos workflows de traitement des données à l'aide du flux logique de données, tandis que Cloud Data Fusion gère toutes les fonctionnalités nécessaires à l'exécution physique dans un environnement d'exécution.
Nœud de pipeline
  • Sur la page Studio de l'interface Web de Cloud Data Fusion, les pipelines sont représentés par une série de nœuds disposés dans un graphe orienté acyclique (DAG), formant un flux unidirectionnel.
  • Les nœuds représentent les différentes actions que vous pouvez effectuer avec vos pipelines, telles que la lecture à partir de sources, l'exécution de transformations de données et l'écriture de sorties dans des récepteurs. Vous pouvez développer des pipelines de données dans l'interface Web de Cloud Data Fusion en connectant des sources, des transformations, des récepteurs et d'autres nœuds.
Plug-ins
  • Un plug-in est un module personnalisable qui peut être utilisé pour étendre les fonctionnalités de Cloud Data Fusion.
  • Cloud Data Fusion fournit des plug-ins pour les sources, les transformations, les agrégats, les récepteurs, les collecteurs d'erreurs, les éditeurs d'alertes, les actions et les actions post-exécution.
  • Un plug-in est parfois appelé "nœud", généralement dans le contexte de l'interface Web de Cloud Data Fusion.
  • Pour découvrir les plug-ins Cloud Data Fusion populaires et y accéder, consultez la page Plug-ins Cloud Data Fusion.
Hub Dans l'interface Web de Cloud Data Fusion, cliquez sur Hub pour parcourir les plug-ins, les exemples de pipelines et d'autres intégrations. Lorsqu'une nouvelle version d'un plug-in est publiée, elle est visible dans le Hub dans toutes les instances compatibles. Cela s'applique même si l'instance a été créée avant la publication du plug-in.
Aperçu du pipeline
  • Cloud Data Fusion Studio vous permet de tester la précision de la conception du pipeline à l'aide de l'option Aperçu sur le sous-ensemble de données.
  • Un pipeline en mode aperçu s'exécute dans le projet locataire.
Exécution de pipeline
  • Cloud Data Fusion crée des environnements d'exécution éphémères pour exécuter les pipelines.
  • Cloud Data Fusion est compatible avec Dataproc en tant qu'environnement d'exécution
  • Cloud Data Fusion provisionne un cluster Dataproc éphémère dans votre projet client au début de l'exécution d'un pipeline, l'exécute à l'aide de Spark dans le cluster, puis supprime le cluster une fois l'exécution du pipeline terminée.
  • Si vous gérez vos clusters Dataproc dans des environnements contrôlés, à l'aide de technologies telles que Terraform, vous pouvez également configurer Cloud Data Fusion pour qu'il ne provisionne pas de clusters. Dans ces environnements, vous pouvez exécuter des pipelines sur des clusters Dataproc existants.
Compute profiles
  • Un profil de calcul spécifie comment et où un pipeline est exécuté. Un profil encapsule toutes les informations requises pour configurer et supprimer l'environnement d'exécution physique d'un pipeline.
  • Par exemple, un profil de calcul inclut les éléments suivants:
    • Approvisionneur d'exécutions
    • Ressources (mémoire et processeur)
    • Nombre minimal et maximal de nœuds
    • Autres valeurs
  • Un profil est identifié par son nom et doit se voir attribuer un approvisionneur et sa configuration associée. Un profil peut exister au niveau de l'instance Cloud Data Fusion ou au niveau de l'espace de noms.
  • Le profil de calcul par défaut de Cloud Data Fusion est l'autoscaling.
Pipelines réutilisables
  • Les pipelines de données réutilisables dans Cloud Data Fusion permettent de créer un pipeline unique capable d'appliquer un modèle d'intégration de données à divers cas d'utilisation et ensembles de données.
  • Les pipelines réutilisables améliorent la gestion, car ils définissent la majeure partie de la configuration d'un pipeline au moment de l'exécution, plutôt que de le coder en dur au moment de la conception.
Déclencheurs
  • Cloud Data Fusion permet de créer un déclencheur sur un pipeline de données (appelé pipeline en aval) pour qu'il s'exécute à la fin d'un ou de plusieurs pipelines différents (appelés pipelines en amont). Vous choisissez le moment où le pipeline en aval s'exécute, par exemple en cas de réussite, d'échec, d'arrêt ou une combinaison de ces facteurs, de l'exécution du pipeline en amont.
  • Les déclencheurs sont utiles dans les cas suivants:
    • Vous nettoyez vos données une seule fois, puis vous les mettez à la disposition de plusieurs pipelines en aval pour utilisation.
    • Partage d'informations entre les pipelines, telles que des arguments d'exécution et des configurations de plug-in. C'est ce qu'on appelle la configuration de la charge utile.
    • Disposer d'un ensemble de pipelines dynamiques pouvant s'exécuter en utilisant les données de l'heure, du jour, de la semaine ou du mois, au lieu d'utiliser un pipeline statique qui doit être mis à jour à chaque exécution.

Ressources Cloud Data Fusion

Explorer les ressources Cloud Data Fusion:

Étapes suivantes