Panoramica di Cloud Data Fusion

Cloud Data Fusion è un servizio di integrazione dei dati aziendali cloud-native completamente gestito per la creazione e la gestione rapide di pipeline di dati. L'interfaccia web di Cloud Data Fusion consente di creare soluzioni di integrazione dei dati scalabili. Consente di connetterti a varie origini dati, trasformare i dati e poi trasferirli in vari sistemi di destinazione, senza dover gestire l'infrastruttura.

Cloud Data Fusion si basa sul progetto open source CDAP.

Inizia a utilizzare Cloud Data Fusion

Puoi iniziare a esplorare Cloud Data Fusion in pochi minuti.

Esplora Cloud Data Fusion

I componenti principali di Cloud Data Fusion sono spiegati nelle sezioni seguenti.

Progetto tenant

Il set di servizi necessari per creare e orchestrare le pipeline di Cloud Data Fusion e i metadati delle pipeline di archiviazione viene eseguito in un progetto tenant all'interno di un'unità di tenancy. Viene creato un progetto tenant separato per ogni progetto del cliente in cui viene eseguito il provisioning delle istanze di Cloud Data Fusion. Il progetto tenant eredita tutte le configurazioni di networking e firewall dal progetto del cliente.

Cloud Data Fusion: console

La console di Cloud Data Fusion, nota anche come piano di controllo, è un insieme di operazioni API e un'interfaccia web che gestisce l'istanza Cloud Data Fusion stessa, come la creazione, l'eliminazione, il riavvio e l'aggiornamento.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, noto anche come piano dati, è un insieme di operazioni dell'API REST e dell'interfaccia web che riguardano la creazione, l'esecuzione e la gestione delle pipeline e degli artefatti correlati.

Concetti

Questa sezione introduce alcuni dei concetti principali di Cloud Data Fusion.

Concetto Descrizione
Istanze Cloud Data Fusion
  • Un'istanza di Cloud Data Fusion è un deployment univoco di Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion, puoi creare un'istanza di Cloud Data Fusion tramite la console Google Cloud.
  • Puoi creare più istanze in un singolo progetto della console Google Cloud e specificare la regione Google Cloud in cui creare le istanze Cloud Data Fusion.
  • In base ai tuoi requisiti e ai tuoi vincoli di costo, puoi creare un'istanza per sviluppatori, Basic o Enterprise.
  • Ogni istanza di Cloud Data Fusion contiene un deployment di Cloud Data Fusion univoco e indipendente che include un set di servizi per gestire la gestione del ciclo di vita delle pipeline, l'orchestrazione, il coordinamento e la gestione dei metadati. Questi servizi vengono eseguiti utilizzando risorse a lunga esecuzione in un progetto tenant.
Spazio dei nomi Uno spazio dei nomi è un raggruppamento logico di applicazioni, dati e metadati associati in un'istanza di Cloud Data Fusion. Gli spazi dei nomi possono essere considerati come un partizionamento dell'istanza. In una singola istanza, uno spazio dei nomi archivia i dati e i metadati di un'entità in modo indipendente da un altro.
Pipeline
  • Una pipeline è un modo per progettare visivamente i dati e controllare i flussi per estrarre, trasformare, combinare, aggregare e caricare i dati da varie origini dati on-premise e su cloud.
  • La creazione di pipeline consente di creare flussi di lavoro complessi di elaborazione dati in grado di aiutarti a risolvere problemi di importazione, integrazione e migrazione dei dati. Puoi utilizzare Cloud Data Fusion per creare pipeline sia in modalità batch che in tempo reale, a seconda delle tue esigenze.
  • Le pipeline ti consentono di esprimere i flussi di lavoro di elaborazione dati utilizzando il flusso logico di dati, mentre Cloud Data Fusion gestisce tutte le funzionalità necessarie per l'esecuzione fisica in un ambiente di esecuzione.
Nodo pipeline
  • Nella pagina di Studio dell'interfaccia web di Cloud Data Fusion, le pipeline sono rappresentate come una serie di nodi disposti in un grafo diretto aciclico (DAG), che formano un flusso unidirezionale.
  • I nodi rappresentano le varie azioni che puoi intraprendere con le tue pipeline, ad esempio la lettura dalle origini, l'esecuzione di trasformazioni dei dati e la scrittura dell'output nei sink. Puoi sviluppare pipeline di dati nell'interfaccia web di Cloud Data Fusion connettendo origini, trasformazioni, sink e altri nodi.
Plug-in
  • Un plug-in è un modulo personalizzabile che può essere utilizzato per estendere le funzionalità di Cloud Data Fusion.
  • Cloud Data Fusion fornisce plug-in per origini, trasformazioni, aggregazioni, sink, raccoglitori di errori, publisher di avvisi, azioni e azioni post-esecuzione.
  • Un plug-in a volte viene definito nodo, in genere nel contesto dell'interfaccia web di Cloud Data Fusion.
  • Per scoprire e accedere ai plug-in popolari di Cloud Data Fusion, consulta la pagina relativa ai plug-in di Cloud Data Fusion.
Hub Nell'interfaccia web di Cloud Data Fusion, per sfogliare plug-in, pipeline di esempio e altre integrazioni, fai clic su Hub. Quando viene rilasciata una nuova versione di un plug-in, questa è visibile nell'hub in qualsiasi istanza compatibile. Questo vale anche se l'istanza è stata creata prima del rilascio del plug-in.
Anteprima della pipeline
  • Cloud Data Fusion Studio ti consente di testare l'accuratezza della progettazione delle pipeline utilizzando l'anteprima sul sottoinsieme di dati.
  • Una pipeline in anteprima viene eseguita nel progetto tenant.
Esecuzione della pipeline
  • Cloud Data Fusion crea ambienti di esecuzione temporanei per eseguire le pipeline.
  • Cloud Data Fusion supporta Dataproc come ambiente di esecuzione
  • Cloud Data Fusion esegue il provisioning di un cluster Dataproc temporaneo nel progetto del cliente all'inizio dell'esecuzione di una pipeline, la esegue utilizzando Spark nel cluster, quindi elimina il cluster al termine dell'esecuzione della pipeline.
  • In alternativa, se gestisci i tuoi cluster Dataproc in ambienti controllati, tramite tecnologie come Terraform, puoi anche configurare Cloud Data Fusion in modo da non eseguire il provisioning dei cluster. In questi ambienti, puoi eseguire pipeline su cluster Dataproc esistenti.
Profili Compute
  • Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Un profilo incapsula tutte le informazioni richieste per configurare ed eliminare l'ambiente di esecuzione fisico di una pipeline.
  • Ad esempio, un profilo di computing include quanto segue:
    • Provisioning di esecuzione
    • Risorse (memoria e CPU)
    • Numero minimo e massimo di nodi
    • Altri valori
  • Un profilo è identificato per nome e deve essere assegnato a un provisioner e alla relativa configurazione. Un profilo può esistere a livello di istanza Cloud Data Fusion o a livello di spazio dei nomi.
  • Il profilo di calcolo predefinito di Cloud Data Fusion è Scalabilità automatica.
Pipeline riutilizzabili
  • Le pipeline di dati riutilizzabili in Cloud Data Fusion consentono di creare un'unica pipeline in grado di applicare un pattern di integrazione dei dati a una varietà di casi d'uso e set di dati.
  • Le pipeline riutilizzabili offrono una migliore gestibilità impostando la maggior parte della configurazione di una pipeline al momento dell'esecuzione, anziché come hardcoded in fase di progettazione.
Trigger
  • Cloud Data Fusion supporta la creazione di un trigger su una pipeline di dati (chiamata pipeline downstream) per l'esecuzione al completamento di una o più pipeline diverse (chiamate pipeline upstream). Puoi scegliere quando eseguire la pipeline downstream, ad esempio in caso di esito positivo o negativo, in caso di arresto o in qualsiasi combinazione di queste condizioni, dell'esecuzione della pipeline upstream.
  • Gli attivatori sono utili nei seguenti casi:
    • Pulisci i dati una volta e poi rendili disponibili per più pipeline downstream per il consumo.
    • Condivisione di informazioni, ad esempio argomenti di runtime e configurazioni di plug-in, tra le pipeline. Questa è chiamata configurazione di payload.
    • Disporre di un insieme di pipeline dinamiche che possono essere eseguite utilizzando i dati di ora, giorno, settimana o mese, invece di utilizzare una pipeline statica che deve essere aggiornata a ogni esecuzione.

Risorse di Cloud Data Fusion

Esplora le risorse di Cloud Data Fusion:

Passaggi successivi