Panoramica di Cloud Data Fusion

Cloud Data Fusion è una piattaforma cloud-native completamente gestita di integrazione per creare e gestire rapidamente pipeline di dati. L'interfaccia web di Cloud Data Fusion consente di creare soluzioni di integrazione dei dati scalabili. Consente di connetterti a varie origini dati, trasformare i dati e per poi trasferirlo a vari sistemi di destinazione, senza dover gestire dell'infrastruttura.

Cloud Data Fusion è basato sul progetto open source CDAP.

Inizia a utilizzare Cloud Data Fusion

Puoi iniziare a esplorare Cloud Data Fusion in pochi minuti.

Esplora Cloud Data Fusion

I componenti principali di Cloud Data Fusion sono descritti di seguito sezioni.

Progetto tenant

L'insieme di servizi necessari per creare e orchestrare Cloud Data Fusion delle pipeline e dei metadati delle pipeline del datastore viene eseguito in un tenant progetto, all'interno di una tenancy unità. Viene creato un progetto tenant separato per ogni progetto del cliente, in cui È stato eseguito il provisioning delle istanze Cloud Data Fusion. Il progetto tenant eredita tutte le configurazioni di networking e firewall del progetto del cliente.

Cloud Data Fusion: console

La console di Cloud Data Fusion, nota anche come piano di controllo, è un insieme di operazioni API e un'interfaccia web che gestisce l'istanza Cloud Data Fusion stessa, ad esempio creando, eliminando, riavviando e aggiornandolo.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, noto anche come piano dati, è un insieme di API REST e interfaccia web operazioni che si occupano di creazione, esecuzione e gestione delle pipeline artefatti correlati.

Concetti

Questa sezione introduce alcuni dei concetti fondamentali di Cloud Data Fusion.

Concetto Descrizione
Istanza Cloud Data Fusion
  • Un'istanza Cloud Data Fusion è un deployment unico di Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion, crea un'istanza Cloud Data Fusion tramite la console Google Cloud.
  • Puoi creare più istanze in un'unica console Google Cloud progetto e puoi specificare la regione Google Cloud per creare in Cloud Data Fusion.
  • In base ai tuoi requisiti e ai tuoi vincoli di costo, puoi creare Sviluppatore, Basic o Enterprise in esecuzione in un'istanza Compute Engine.
  • Ogni istanza Cloud Data Fusion contiene un'istanza Deployment di Cloud Data Fusion che contiene un set di servizi, che gestiscono la gestione del ciclo di vita della pipeline, l'orchestrazione coordinamento e gestione dei metadati. Questi servizi vengono eseguiti utilizzando in un ambiente progetto tenant.
Spazio dei nomi Uno spazio dei nomi è un raggruppamento logico di applicazioni, dati e metadati associati in un'istanza Cloud Data Fusion. Puoi pensare di spazi dei nomi come partizionamento dell'istanza. In una singola istanza, Uno spazio dei nomi archivia i dati e i metadati di un'entità in modo indipendente da un altro spazio dei nomi.
Pipeline
  • Una pipeline è un modo per progettare visivamente dati e controlli per estrarre, trasformare, combinare, aggregare e caricare i dati da varie origini dati on-premise e cloud.
  • La creazione di pipeline ti consente di elaborare processi di elaborazione dei dati complessi che consentono di risolvere importazione dati, integrazione durante la migrazione. Puoi utilizzare Cloud Data Fusion per creare pipeline in modalità batch e in tempo reale, a seconda delle tue esigenze.
  • Le pipeline ti consentono di esprimere i tuoi flussi di lavoro di elaborazione dati utilizzando il flusso logico dei dati, mentre Cloud Data Fusion gestisce tutti funzionalità necessaria per l'esecuzione fisica in un'esecuzione completamente gestito di Google Cloud.
Nodo della pipeline
  • Nella pagina di Studio dell'interfaccia web di Cloud Data Fusion, le pipeline sono rappresentate come una serie di nodi disposti in una grafo aciclico (DAG), che forma un flusso unidirezionale.
  • I nodi rappresentano le varie azioni che puoi intraprendere con pipeline di dati, come la lettura da origini, l'esecuzione trasformazioni di dati e la scrittura dell'output nei sink. Puoi sviluppare dati di pipeline di Cloud Data Fusion nell'interfaccia web di Cloud Data Fusion come origini, trasformazioni, sink e altri nodi.
Plug-in
  • Un plug-in è un modulo personalizzabile che può essere utilizzato per estendere di archiviazione di Cloud Data Fusion.
  • Cloud Data Fusion fornisce plug-in per origini, trasformazioni, aggregati, sink, raccoglitori di errori, publisher di avvisi, azioni azioni post-esecuzione.
  • Un plug-in viene a volte indicato come nodo, di solito contesto dell'interfaccia web di Cloud Data Fusion.
  • Per scoprire e accedere ai più diffusi plug-in di Cloud Data Fusion, vedi Plug-in di Cloud Data Fusion.
Hub Nell'interfaccia web di Cloud Data Fusion, per sfogliare i plug-in, visualizza pipeline e altre integrazioni, fai clic su Hub. Quando un nuovo di un plug-in, è visibile nell'hub in tutte le istanze che sia compatibile. Questo vale anche se l'istanza è stata creata in precedenza il plug-in è stato rilasciato.
Anteprima della pipeline
  • Cloud Data Fusion Studio consente di testare l'accuratezza progettare la pipeline utilizzando Anteprima sul sottoinsieme dei dati.
  • Una pipeline in anteprima viene eseguita nel progetto tenant.
Esecuzione della pipeline
  • Cloud Data Fusion crea ambienti di esecuzione temporanei per eseguire le pipeline.
  • Cloud Data Fusion supporta Dataproc come ambiente di esecuzione
  • Cloud Data Fusion esegue il provisioning di una il cluster Dataproc nel progetto del cliente a livello all'inizio di un'esecuzione della pipeline, esegue la pipeline utilizzando Spark cluster ed elimina il cluster al termine dell'esecuzione della pipeline. completato.
  • In alternativa, se gestisci i tuoi cluster Dataproc in ambienti controllati, tramite tecnologie come Terraform, puoi anche configurare Cloud Data Fusion in modo che non esegua il provisioning dei cluster. Nel per questi ambienti, puoi eseguire pipeline di cluster Dataproc.
Profilo di calcolo
  • Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Un profilo contiene tutte le informazioni necessarie per configurare elimina l'ambiente di esecuzione fisico di una pipeline.
  • Ad esempio, un profilo di computing include quanto segue:
    • Provisioner esecuzione
    • Risorse (memoria e CPU)
    • Numero minimo e massimo di nodi
    • Altri valori
  • Un profilo viene identificato per nome e deve essere assegnato a un provisioning agent e alla relativa configurazione. Un profilo può esistere a livello di istanza Cloud Data Fusion o a livello di spazio dei nomi.
  • Il profilo di computing predefinito di Cloud Data Fusion Scalabilità automatica.
Pipeline riutilizzabile
  • Le pipeline di dati riutilizzabili in Cloud Data Fusion consentono di creare una singola pipeline che può applicare un pattern di integrazione dei dati a una serie di casi d'uso e set di dati.
  • Le pipeline riutilizzabili offrono una migliore gestibilità impostando la maggior parte dei la configurazione di una pipeline al momento dell'esecuzione, invece che hardcoded in fase di progettazione.
Attivatore
  • Cloud Data Fusion supporta la creazione di un trigger su una (denominata pipeline downstream), in modo che venga eseguita il completamento di una o più pipeline diverse (chiamate upstream pipeline di dati). Sei tu a scegliere quando viene eseguita la pipeline downstream, Ad esempio, in caso di esito positivo, negativo, arresto o in una qualsiasi combinazione di questi dell'esecuzione della pipeline a monte.
  • Gli attivatori sono utili nei seguenti casi:
    • Pulisci i dati una volta e poi rendili disponibili per l'utilizzo da parte di più pipeline a valle.
    • Condivisione di informazioni, ad esempio argomenti di runtime e configurazioni dei plug-in, tra le pipeline. Questa operazione viene definita configurazione del carico utile.
    • Avere un insieme di pipeline dinamiche che possono essere eseguite utilizzando i dati l'ora, il giorno, la settimana o il mese, invece di utilizzare una pipeline statica che devono essere aggiornati a ogni esecuzione.

Risorse di Cloud Data Fusion

Esplora le risorse di Cloud Data Fusion:

Passaggi successivi