Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Cloud Data Fusion è una piattaforma cloud-native completamente gestita
di integrazione per creare e gestire rapidamente
pipeline di dati. L'interfaccia web di Cloud Data Fusion consente di creare soluzioni di integrazione dei dati scalabili. Consente di connetterti a varie origini dati, trasformare i dati e
per poi trasferirlo a vari sistemi di destinazione, senza dover gestire
dell'infrastruttura.
Cloud Data Fusion è basato sul progetto open source
CDAP.
Inizia a utilizzare Cloud Data Fusion
Puoi iniziare a esplorare Cloud Data Fusion in pochi minuti.
I componenti principali di Cloud Data Fusion sono descritti di seguito
sezioni.
Progetto tenant
L'insieme di servizi necessari per creare e orchestrare Cloud Data Fusion
delle pipeline e dei metadati delle pipeline del datastore viene eseguito in un tenant
progetto, all'interno di una tenancy
unità. Viene creato un progetto tenant separato per ogni progetto del cliente, in cui
È stato eseguito il provisioning delle istanze Cloud Data Fusion. Il progetto tenant eredita
tutte le configurazioni di networking e firewall del progetto del cliente.
Cloud Data Fusion: console
La console di Cloud Data Fusion, nota anche come piano di controllo, è un
insieme di operazioni API
e un'interfaccia web che gestisce l'istanza Cloud Data Fusion stessa,
ad esempio creando, eliminando, riavviando e aggiornandolo.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, noto anche come piano dati, è un insieme di
API REST e interfaccia web
operazioni che si occupano di creazione, esecuzione e gestione delle pipeline
artefatti correlati.
Concetti
Questa sezione introduce alcuni dei concetti fondamentali di Cloud Data Fusion.
Un'istanza Cloud Data Fusion è un deployment unico di Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion,
crea un'istanza Cloud Data Fusion tramite la
console Google Cloud.
Puoi creare più istanze in un'unica console Google Cloud
progetto e puoi specificare la regione Google Cloud per creare
in Cloud Data Fusion.
In base ai tuoi requisiti e ai tuoi vincoli di costo, puoi creare
Sviluppatore, Basic o Enterprise
in esecuzione in un'istanza Compute Engine.
Ogni istanza Cloud Data Fusion contiene un'istanza
Deployment di Cloud Data Fusion
che contiene un set di servizi,
che gestiscono la gestione del ciclo di vita della pipeline, l'orchestrazione
coordinamento e gestione dei metadati. Questi servizi vengono eseguiti utilizzando
in un ambiente
progetto tenant.
Uno spazio dei nomi è un raggruppamento logico di applicazioni, dati e metadati associati in un'istanza Cloud Data Fusion. Puoi pensare
di spazi dei nomi come partizionamento dell'istanza. In una singola istanza,
Uno spazio dei nomi archivia i dati e i metadati di un'entità in modo indipendente
da un altro spazio dei nomi.
Una pipeline è un modo per progettare visivamente dati e controlli
per estrarre, trasformare, combinare, aggregare e caricare i dati
da varie origini dati on-premise e cloud.
La creazione di pipeline ti consente di elaborare processi di elaborazione dei dati complessi
che consentono di risolvere importazione dati, integrazione
durante la migrazione. Puoi utilizzare Cloud Data Fusion per creare
pipeline in modalità batch e in tempo reale, a seconda delle tue esigenze.
Le pipeline ti consentono di esprimere i tuoi flussi di lavoro di elaborazione dati utilizzando
il flusso logico dei dati, mentre Cloud Data Fusion gestisce tutti
funzionalità necessaria per l'esecuzione fisica in un'esecuzione
completamente gestito di Google Cloud.
Nella pagina di Studio dell'interfaccia web di Cloud Data Fusion,
le pipeline sono rappresentate come una serie di nodi disposti in una
grafo aciclico (DAG), che forma un flusso unidirezionale.
I nodi rappresentano le varie azioni che puoi intraprendere con
pipeline di dati, come la lettura da origini, l'esecuzione
trasformazioni di dati e la scrittura dell'output nei sink. Puoi sviluppare dati
di pipeline di Cloud Data Fusion nell'interfaccia web di Cloud Data Fusion
come origini, trasformazioni, sink e altri nodi.
Un plug-in è un modulo personalizzabile che può essere utilizzato per estendere
di archiviazione di Cloud Data Fusion.
Cloud Data Fusion fornisce plug-in per origini, trasformazioni,
aggregati, sink, raccoglitori di errori, publisher di avvisi, azioni
azioni post-esecuzione.
Un plug-in viene a volte indicato come nodo, di solito
contesto dell'interfaccia web di Cloud Data Fusion.
Nell'interfaccia web di Cloud Data Fusion, per sfogliare i plug-in, visualizza
pipeline e altre integrazioni, fai clic su Hub. Quando un nuovo
di un plug-in, è visibile nell'hub in tutte le istanze
che sia compatibile. Questo vale anche se l'istanza è stata creata in precedenza
il plug-in è stato rilasciato.
Cloud Data Fusion crea ambienti di esecuzione temporanei per eseguire le pipeline.
Cloud Data Fusion supporta Dataproc come
ambiente di esecuzione
Cloud Data Fusion esegue il provisioning di una
il cluster Dataproc nel progetto del cliente a livello
all'inizio di un'esecuzione della pipeline, esegue la pipeline utilizzando Spark
cluster ed elimina il cluster al termine dell'esecuzione della pipeline.
completato.
In alternativa, se gestisci i tuoi cluster Dataproc
in ambienti controllati, tramite tecnologie come Terraform,
puoi anche configurare Cloud Data Fusion in modo che non esegua il provisioning dei cluster. Nel
per questi ambienti, puoi eseguire pipeline
di cluster Dataproc.
Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Un profilo contiene tutte le informazioni necessarie per configurare
elimina l'ambiente di esecuzione fisico di una pipeline.
Ad esempio, un profilo di computing include quanto segue:
Provisioner esecuzione
Risorse (memoria e CPU)
Numero minimo e massimo di nodi
Altri valori
Un profilo viene identificato per nome e deve essere assegnato a un provisioning agent
e alla relativa configurazione. Un profilo può esistere
a livello di istanza Cloud Data Fusion o a livello di spazio dei nomi.
Il profilo di computing predefinito di Cloud Data Fusion
Scalabilità automatica.
Le pipeline di dati riutilizzabili in Cloud Data Fusion consentono di creare
una singola pipeline che può applicare un pattern di integrazione dei dati a una
serie di casi d'uso e set di dati.
Le pipeline riutilizzabili offrono una migliore gestibilità impostando la maggior parte dei
la configurazione di una pipeline al momento dell'esecuzione, invece che
hardcoded in fase di progettazione.
Cloud Data Fusion supporta la creazione di un trigger su una
(denominata pipeline downstream), in modo che venga eseguita
il completamento di una o più pipeline diverse (chiamate upstream
pipeline di dati). Sei tu a scegliere quando viene eseguita la pipeline downstream,
Ad esempio, in caso di esito positivo, negativo, arresto o in una qualsiasi combinazione di questi
dell'esecuzione della pipeline a monte.
Gli attivatori sono utili nei seguenti casi:
Pulisci i dati una volta e poi rendili disponibili per l'utilizzo da parte di più pipeline a valle.
Condivisione di informazioni, ad esempio argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa operazione viene definita configurazione del carico utile.
Avere un insieme di pipeline dinamiche che possono essere eseguite utilizzando i dati
l'ora, il giorno, la settimana o il mese, invece di utilizzare una pipeline statica
che devono essere aggiornati a ogni esecuzione.
Risorse di Cloud Data Fusion
Esplora le risorse di Cloud Data Fusion:
Le note di rilascio forniscono una modifica
log di funzionalità, modifiche e deprecazioni
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2024-09-18 UTC."],[],[]]