Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Cloud Data Fusion est une solution cloud native de données d'entreprise
pour créer et gérer rapidement des pipelines de données. La
L'interface Web de Cloud Data Fusion vous permet de créer une intégration de données évolutive
de Google Cloud. Il vous permet de vous connecter à diverses sources de données, de les transformer et
puis les transférer vers différents systèmes de destination, sans avoir à gérer
de l'infrastructure.
Cloud Data Fusion s'appuie sur le projet Open Source CDAP.
Premiers pas avec Cloud Data Fusion
Vous pouvez commencer à explorer Cloud Data Fusion en quelques minutes.
Les principaux composants de Cloud Data Fusion sont décrits dans les sections suivantes
.
Projet locataire
Ensemble des services requis pour créer et orchestrer Cloud Data Fusion
les pipelines et les métadonnées de pipeline
sont provisionnées dans un
projet, dans une architecture de location
bloc d'annonces. Un projet locataire distinct est créé pour chaque projet client, dans lequel
Les instances Cloud Data Fusion sont provisionnées. Le projet locataire hérite
toutes les configurations de réseau
et de pare-feu du projet client.
Cloud Data Fusion: console
La console Cloud Data Fusion, également appelée plan de contrôle, est
ensemble d'opérations d'API
et une interface Web qui gère l'instance Cloud Data Fusion elle-même,
telles que les créer, les supprimer,
les redémarrer et les mettre à jour.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, également appelé plan de données, est un ensemble de
API REST et interface Web
opérations qui traitent de la création, de l'exécution et de la gestion de pipelines
les artefacts associés.
Concepts
Cette section présente certains des concepts fondamentaux de Cloud Data Fusion.
Une instance Cloud Data Fusion est un déploiement unique
Cloud Data Fusion. Pour commencer à utiliser Cloud Data Fusion,
créer une instance Cloud Data Fusion via
console Google Cloud.
Vous pouvez créer plusieurs instances dans une seule console Google Cloud
et vous pouvez spécifier la région Google Cloud dans laquelle créer
d'instances Cloud Data Fusion.
Chaque instance Cloud Data Fusion contient un sous-réseau unique
un déploiement Cloud Data Fusion contenant un ensemble de services,
qui gèrent la gestion du cycle de vie, l'orchestration
la coordination et la gestion des métadonnées. Ces services s'exécutent à l'aide de
les ressources de longue durée
projet locataire.
Un espace de noms est un regroupement logique d'applications, de données
associées dans une instance Cloud Data Fusion. Vous pouvez réfléchir
d'espaces de noms en tant que partitionnement de l'instance. Dans une seule instance,
Un espace de noms stocke les données et les métadonnées d'une entité indépendamment
d'un autre espace de noms.
Un pipeline est un moyen de concevoir visuellement les données et le contrôle
pour extraire, transformer, combiner, agréger et charger des données à partir de
de diverses sources de données sur site et dans le cloud.
Créer des pipelines vous permet de créer des traitements de données complexes
qui peuvent vous aider à résoudre les problèmes d'ingestion, d'intégration et
de migration. Vous pouvez utiliser Cloud Data Fusion pour créer
des pipelines de traitement par lot et en temps réel, selon vos besoins.
Les pipelines vous permettent d'exprimer vos workflows de traitement des données
le flux logique de données, tandis que Cloud Data Fusion gère toutes les
fonctionnalités requises pour s'exécuter physiquement dans une exécution
environnement.
Sur la page Studio de l'interface Web de Cloud Data Fusion,
les pipelines sont représentés par une série de nœuds disposés en
graphe acyclique (DAG), formant un flux à sens unique.
Les nœuds représentent les différentes actions que vous pouvez effectuer
tels que la lecture à partir de sources, l'exécution de
les transformations et l'écriture de la sortie dans des récepteurs. Vous pouvez développer des données
des pipelines dans l'interface Web de Cloud Data Fusion en connectant
sources, transformations, récepteurs et autres nœuds.
Un plug-in est un module personnalisable qui permet d'étendre
de Cloud Data Fusion.
Cloud Data Fusion fournit des plug-ins pour les sources,
les agrégations, les récepteurs, les collecteurs d'erreurs, les éditeurs d'alerte, les actions
les actions post-exécution.
Un plug-in est parfois appelé nœud, généralement dans le
le contexte de l'interface Web Cloud Data Fusion.
Dans l'interface Web de Cloud Data Fusion, pour parcourir les plug-ins, utilisez des exemples
pipelines et autres intégrations, cliquez sur Hub. Lorsqu'un nouveau
d'un plug-in est disponible, il est visible dans le Hub dans toutes les instances
qui est compatible. Cela s'applique même si l'instance a été créée avant
le plug-in a été publié.
Cloud Data Fusion crée des environnements d'exécution éphémères pour
exécuter des pipelines.
Cloud Data Fusion est compatible avec Dataproc
environnement d'exécution
Cloud Data Fusion provisionne une instance
cluster Dataproc dans votre projet client au niveau
au début de l'exécution d'un pipeline, exécute le pipeline à l'aide de Spark
puis le supprime une fois l'exécution du pipeline terminée
terminé.
Si vous gérez vos clusters Dataproc,
dans des environnements contrôlés, grâce à des technologies comme Terraform,
configurer Cloud Data Fusion pour qu'il ne provisionne pas de clusters. Dans
dans ces environnements, vous pouvez exécuter des pipelines
clusters Dataproc.
Un profil de calcul spécifie comment et où un pipeline
exécuté. Un profil encapsule toutes les informations requises pour configurer et
supprimer l'environnement d'exécution physique d'un pipeline.
Par exemple, un profil de calcul inclut les éléments suivants:
Approvisionneur d'exécution
Ressources (mémoire et processeur)
Nombre minimal et maximal de nœuds
Autres valeurs
Un profil est identifié par son nom et doit se voir attribuer un approvisionneur
et la configuration associée. Un profil peut exister au niveau
Cloud Data Fusion au niveau de l'instance ou de l'espace de noms.
Le profil de calcul par défaut de Cloud Data Fusion est
Autoscaling.
Les pipelines de données réutilisables dans Cloud Data Fusion permettent de créer
d'un pipeline unique, capable d'appliquer un modèle d'intégration de données
de cas d'utilisation et d'ensembles de données.
Les pipelines réutilisables améliorent la facilité de gestion en définissant la plupart des
la configuration d'un pipeline au moment de l'exécution, et non
à les coder en dur au moment de la conception.
Cloud Data Fusion permet de créer un déclencheur sur une base de données
(appelé pipeline en aval) pour qu'il s'exécute
l'achèvement d'un ou de plusieurs pipelines différents (appelés pipelines en amont
pipelines). Vous choisissez quand le pipeline en aval s'exécute, par exemple
exemple, en cas de réussite, d'échec, d'arrêt ou toute combinaison de ces éléments,
de l'exécution du pipeline en amont.
Les déclencheurs sont utiles dans les cas suivants:
Nettoyer vos données une fois, puis les mettre à la disposition de
plusieurs pipelines en aval
à des fins de consommation.
Informations de partage, telles que les arguments d'exécution et le plug-in
entre les pipelines. C'est ce qu'on appelle la charge utile
configuration.
Il existe un ensemble de pipelines dynamiques
qui peuvent s'exécuter à l'aide des données
l'heure, le jour, la semaine ou le mois, au lieu d'utiliser un pipeline statique
qui doit être mis à jour à chaque exécution.
Ressources Cloud Data Fusion
Explorez les ressources Cloud Data Fusion:
Les notes de version apportent des modifications
les journaux des fonctionnalités, des modifications et des abandons
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/07/26 (UTC).
[{
"type": "thumb-down",
"id": "hardToUnderstand",
"label":"Hard to understand"
},{
"type": "thumb-down",
"id": "incorrectInformationOrSampleCode",
"label":"Incorrect information or sample code"
},{
"type": "thumb-down",
"id": "missingTheInformationSamplesINeed",
"label":"Missing the information/samples I need"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"Problème de traduction"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"Autre"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"Facile à comprendre"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"J'ai pu résoudre mon problème"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"Autre"
}]