Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Cloud Data Fusion è un servizio di integrazione dei dati aziendali cloud-native completamente gestito per creare e gestire rapidamente pipeline di dati. L'interfaccia web di Cloud Data Fusion consente di creare soluzioni di integrazione dei dati scalabili. Ti consente di connetterti a varie origini dati, trasformare i dati e poi trasferirli a vari sistemi di destinazione, senza dover gestire l'infrastruttura.
Cloud Data Fusion si basa sul progetto open source
CDAP.
Inizia a utilizzare Cloud Data Fusion
Puoi iniziare a esplorare Cloud Data Fusion in pochi minuti.
I componenti principali di Cloud Data Fusion sono descritti nelle seguenti
sezioni.
Progetto tenant
L'insieme di servizi necessari per creare e orchestrare le pipeline Cloud Data Fusion e archiviare i metadati delle pipeline viene eseguito in un progetto tenant, all'interno di un'unità di tenancy. Per ogni progetto del cliente viene creato un progetto tenant distinto in cui viene eseguito il provisioning delle istanze Cloud Data Fusion. Il progetto tenant eredita tutte le configurazioni di rete e firewall dal progetto del cliente.
Cloud Data Fusion: console
La console Cloud Data Fusion, indicata anche come piano di controllo, è un insieme di operazioni API e un'interfaccia web che gestisce l'istanza Cloud Data Fusion stessa, ad esempio la creazione, l'eliminazione, il riavvio e l'aggiornamento.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, noto anche come piano di dati, è un insieme di operazioni di API REST e interfaccia web che si occupano della creazione, dell'esecuzione e della gestione di pipeline e elementi correlati.
Concetti
Questa sezione introduce alcuni dei concetti fondamentali di Cloud Data Fusion.
Un'istanza Cloud Data Fusion è un deployment unico di Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion, crea un'istanza Cloud Data Fusion tramite la
console Google Cloud.
Puoi creare più istanze in un singolo progetto della console Google Cloud e puoi specificare la Google Cloud regione in cui creare le istanze Cloud Data Fusion.
Ogni istanza Cloud Data Fusion contiene un deployment Cloud Data Fusion unico e indipendente che contiene un insieme di servizi che gestiscono l'orchestrazione, il coordinamento, la gestione del ciclo di vita e dei metadati delle pipeline. Questi servizi vengono eseguiti utilizzando
risorse a lungo termine in un
progetto tenant.
Uno spazio dei nomi è un raggruppamento logico di applicazioni, dati e metadati associati in un'istanza Cloud Data Fusion. Puoi pensare ai nomi di spazio come a una suddivisione dell'istanza. In una singola istanza,
uno spazio dei nomi memorizza i dati e i metadati di un'entità indipendentemente
da un altro spazio dei nomi.
Una pipeline è un modo per progettare visivamente i dati e controllare i flussi per estrarre, trasformare, combinare, aggregare e caricare i dati da varie origini dati on-premise e cloud.
La creazione di pipeline ti consente di creare flussi di lavoro di elaborazione dei dati complessi che possono aiutarti a risolvere i problemi di importazione, integrazione e migrazione dei dati. Puoi utilizzare Cloud Data Fusion per creare sia
pipeline batch che in tempo reale, a seconda delle tue esigenze.
Le pipeline ti consentono di esprimere i tuoi flussi di lavoro di elaborazione dei dati utilizzando
il flusso logico dei dati, mentre Cloud Data Fusion gestisce tutte le
funzionalità necessarie per l'esecuzione fisica in un ambiente di esecuzione.
Nella pagina Studio dell'interfaccia web di Cloud Data Fusion,
le pipeline sono rappresentate come una serie di nodi disposti in un grafo
diretto aciclico (DAG), formando un flusso unidirezionale.
I nodi rappresentano le varie azioni che puoi eseguire con le tue
pipeline, ad esempio la lettura dalle origini, l'esecuzione di trasformazioni
dei dati e la scrittura dell'output negli sink. Puoi sviluppare pipeline di dati nell'interfaccia web di Cloud Data Fusion collegando origini, trasformazioni, sink e altri nodi.
Un plug-in è un modulo personalizzabile che consente di estendere le funzionalità di Cloud Data Fusion.
Cloud Data Fusion fornisce plug-in per origini, trasformazioni, aggregati, sink, collezioni di errori, publisher di avvisi, azioni e azioni di post-esecuzione.
A volte un plug-in viene chiamato nodo, in genere nel
contesto dell'interfaccia web di Cloud Data Fusion.
Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub per sfogliare i plug-in, le pipeline di esempio e altre integrazioni. Quando viene rilasciata una nuova
versione di un plug-in, è visibile nell'hub in qualsiasi istanza
compatibile. Ciò vale anche se l'istanza è stata creata prima del rilascio del plug-in.
Cloud Data Fusion crea ambienti di esecuzione temporanei per eseguire le pipeline.
Cloud Data Fusion supporta Dataproc come ambiente di esecuzione
Cloud Data Fusion esegue il provisioning di un
temporaneo
cluster Dataproc nel progetto del cliente all'inizio di un'esecuzione della pipeline, esegue la pipeline utilizzando Spark nel
cluster e poi elimina il cluster al termine dell'esecuzione della pipeline.
In alternativa, se gestisci i tuoi cluster Dataproc
in ambienti controllati, tramite tecnologie come Terraform, puoi anche configurare Cloud Data Fusion in modo da non eseguire il provisioning dei cluster. In questi ambienti, puoi eseguire pipeline sui cluster Dataproc esistenti.
Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Un profilo racchiude tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisico di una pipeline.
Ad esempio, un profilo di calcolo include quanto segue:
Provisioner di esecuzione
Risorse (memoria e CPU)
Numero minimo e massimo di nodi
Altri valori
Un profilo viene identificato per nome e deve essere assegnato a un provisioning agent
e alla relativa configurazione. Un profilo può esistere a livello di istanza Cloud Data Fusion o di spazio dei nomi.
Il profilo di calcolo predefinito di Cloud Data Fusion è
Autoscaling.
Le pipeline di dati riutilizzabili in Cloud Data Fusion consentono di creare
una singola pipeline che può applicare un pattern di integrazione dei dati a una
serie di casi d'uso e set di dati.
Le pipeline riutilizzabili offrono una migliore gestibilità impostando la maggior parte della configurazione di una pipeline in fase di esecuzione, anziché codificarla in modo rigido in fase di progettazione.
Cloud Data Fusion supporta la creazione di un attivatore in una
pipeline di dati (chiamata pipeline a valle) per eseguirla al
completamento di una o più pipeline diverse (chiamate pipeline a monte). Scegli quando viene eseguita la pipeline a valle, ad esempio in caso di esito positivo, esito negativo, interruzione o qualsiasi combinazione di questi, dell'esecuzione della pipeline a monte.
Gli attivatori sono utili nei seguenti casi:
Pulisci i dati una volta e poi rendili disponibili per l'utilizzo da parte di più pipeline a valle.
Condivisione di informazioni, ad esempio argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa operazione viene definita configurazione del carico utile.
Avere un insieme di pipeline dinamiche che possono essere eseguite utilizzando i dati di
ora, giorno, settimana o mese, anziché utilizzare una pipeline statica
che deve essere aggiornata a ogni esecuzione.
Risorse di Cloud Data Fusion
Esplora le risorse di Cloud Data Fusion:
Le note di rilascio forniscono log delle modifiche di funzionalità, modifiche e ritiri
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-02-06 UTC."],[],[]]