Che cos'è Cloud Data Fusion?

Cloud Data Fusion è un servizio di integrazione dei dati aziendali completamente gestito e cloud-native per la creazione e la gestione rapida delle pipeline di dati.

La UI web di Cloud Data Fusion ti consente di creare soluzioni di integrazione dei dati scalabili per pulire, preparare, unire, trasferire e trasformare i dati, senza dover gestire l'infrastruttura.

Cloud Data Fusion è basato sul progetto open source CDAP. In questa pagina sono presenti link al sito della documentazione CDAP, dove puoi trovare informazioni più dettagliate.

Interfacce

Per utilizzare Cloud Data Fusion, puoi utilizzare l'interfaccia utente web visiva o gli strumenti a riga di comando.

Uso dell'interfaccia utente web senza codice

Quando utilizzi Cloud Data Fusion, utilizzi sia la console che la UI web separata di Cloud Data Fusion.

  • In Google Cloud Console, puoi creare un progetto Google Cloud, creare ed eliminare le istanze Cloud Data Fusion (deployment unici di Cloud Data Fusion) e visualizzare i dettagli delle istanze Cloud Data Fusion.

  • Nell'interfaccia utente di Cloud Data Fusion, utilizzi le varie pagine, come Pipeline Studio o Wrangler, per progettare visivamente le pipeline dei dati e utilizzare la funzionalità di Cloud Data Fusion.

In linea generale, segui questi passaggi:

  1. Crea un'istanza di Cloud Data Fusion in Google Cloud Console.

  2. Individua la tua istanza di Cloud Data Fusion nella pagina Istanze della console e fai clic sul link Visualizza istanza nella colonna Azione. La UI di Cloud Data Fusion si apre in una nuova scheda del browser.

  3. Utilizza le varie pagine dell'interfaccia utente web di Cloud Data Fusion per progettare visivamente le pipeline e gestire i metadati.

Utilizzo di strumenti a riga di comando

In alternativa, all'interfaccia utente web, puoi utilizzare strumenti a riga di comando per creare e gestire le tue istanze e pipeline di Cloud Data Fusion.

  • Il riferimento REST descrive l'API per la creazione e la gestione delle tue istanze Cloud Data Fusion su Google Cloud.

  • Il riferimento APAP descrive l'API REST per la creazione e la gestione di pipeline e set di dati.

Concetti principali

Questa sezione fornisce un'introduzione ad alcuni dei concetti fondamentali di Cloud Data Fusion. Alcune sezioni forniscono link alla documentazione di CDAP, dove puoi scoprire di più su ogni concetto e in modo più dettagliato.

Istanza Cloud Data Fusion

Un'istanza Cloud Data Fusion è un deployment univoco di Cloud Data Fusion. Per iniziare a utilizzare Cloud Data Fusion, devi creare un'istanza di Cloud Data Fusion tramite la console.

Puoi creare più istanze in un singolo progetto per console e specificare l'area geografica di Google Cloud in cui creare le tue istanze di Cloud Data Fusion.

In base ai tuoi requisiti e ai vincoli di costo, puoi creare un'istanza Developer, Basic o Enterprise.

Ogni istanza di Cloud Data Fusion contiene un deployment unico e indipendente di Cloud Data Fusion che contiene un set di servizi che gestiscono la gestione del ciclo di vita, l'orchestrazione, il coordinamento e la gestione dei metadati della pipeline. Questi servizi vengono eseguiti utilizzando risorse di lunga durata in un progetto tenant.

Ambiente di esecuzione

Cloud Data Fusion crea ambienti di esecuzione temporanei per eseguire le pipeline quando esegui manualmente le pipeline o quando le pipeline vengono eseguite in base a una pianificazione temporale o a un trigger di stato della pipeline. Cloud Data Fusion supporta Dataproc come ambiente di esecuzione, in cui puoi scegliere di eseguire pipeline come programmi MapReduce, Spark o Spark Streaming. Cloud Data Fusion esegue il provisioning di un cluster Dataproc temporaneo nel progetto cliente all'inizio di un'esecuzione della pipeline, esegue la pipeline utilizzando MapReduce o Spark nel cluster, quindi elimina il cluster dopo il completamento dell'esecuzione.

In alternativa, se gestisci i tuoi cluster Dataproc in ambienti controllati, tramite tecnologie come Terraform, puoi anche configurare Cloud Data Fusion in modo che non esegua il provisioning dei cluster. In questi ambienti, puoi eseguire pipeline su cluster Dataproc esistenti.

Scalabilità automatica

Puoi utilizzare il criterio predefinito di scalabilità automatica di Cloud Data Fusion o il tuo criterio per automatizzare la gestione delle risorse del cluster per l'elaborazione.

Per informazioni sulla creazione di criteri personalizzati per aumentare i worker del cluster per soddisfare le esigenze del carico di lavoro, consulta la sezione Scalabilità automatica dei cluster.

Per informazioni sull'utilizzo del criterio di scalabilità automatica predefinito per le pipeline in esecuzione in Cloud Data Fusion 6.6 e versioni successive, consulta la sezione Quando utilizzare la scalabilità automatica.

Pipeline

Una pipeline è un modo per progettare visivamente i dati e controllare i flussi per estrarre, trasformare, unire, aggregare e caricare i dati da varie origini dati on-premise e cloud. La creazione di pipeline ti consente di creare flussi di lavoro di elaborazione dati complessi che possono aiutarti a risolvere i problemi di importazione, integrazione e migrazione dei dati. Puoi utilizzare Cloud Data Fusion per creare pipeline in modalità batch e in tempo reale, a seconda delle tue esigenze.

Le pipeline consentono di esprimere i flussi di lavoro di elaborazione dati utilizzando il flusso logico dei dati, mentre Cloud Data Fusion gestisce tutte le funzionalità necessarie per l'esecuzione fisica in un ambiente di esecuzione. Lo strumento di pianificazione Cloud Data Fusion trasforma il flusso logico in calcoli paralleli utilizzando Apache Spark e Apache Hadoop MapReduce su Dataproc.

Nodo pipeline

Nella pagina Studio della UI di Cloud Data Fusion, le pipeline sono rappresentate come una serie di nodi organizzati in un grafico aciclico diretto (DAG), che forma un flusso unidirezionale. I nodi rappresentano le varie azioni che puoi eseguire con le tue pipeline, ad esempio la lettura dalle origini, l'esecuzione di trasformazioni dei dati e la scrittura dell'output nei sink. Puoi sviluppare pipeline di dati nella UI di Cloud Data Fusion connettendo origini, trasformazioni, sink e altri nodi.

Fornendo l'accesso a log e metriche, le pipeline offrono agli amministratori un modo semplice per rendere operativi i loro flussi di lavoro di elaborazione dati senza dover utilizzare strumenti personalizzati.

Scopri di più sulle pipeline nel sito della documentazione del CDAP.

Job di replica

La replica ti consente di replicare i dati in modo continuo e in tempo reale da Datastore operativi, come SQL Server e MySQL in BigQuery.

Per ulteriori informazioni, consulta la pagina Job di replica.

Attivazione

Puoi creare un attivatore su una pipeline di dati (chiamata pipeline a monte) per eseguirlo al completamento di una o più pipeline diverse (chiamate pipeline a valle). Sei tu a scegliere quando eseguire la pipeline downstream, quando si verifica il successo, l'errore, l'arresto o qualsiasi combinazione della stessa.

Gli attivatori sono utili per:

  • Pulire i dati una sola volta e renderli disponibili per più pipeline di downstream per il consumo.
  • Condivisione di informazioni tra cui pipeline di configurazione e argomenti di runtime tra pipeline. chiamata configurazione del payload.
  • Avere un insieme di pipeline dinamiche eseguibili usando i dati dell'ora/giorno/settimana/mese, invece di una pipeline statica che deve essere aggiornata per ogni esecuzione.

Plug-in

Un plug-in è un modulo personalizzabile che può essere utilizzato per estendere le capacità di Cloud Data Fusion. Cloud Data Fusion fornisce plug-in per origini, trasformazioni, aggregazioni, sink, raccoglitori di errori, publisher di avvisi, azioni e azioni post-esecuzione.

Talvolta, un plug-in è denominato nodo, solitamente nel contesto della UI web di Cloud Data Fusion.

Nella tabella seguente vengono descritte le varie categorie di plug-in disponibili in Cloud Data Fusion.

Category Descrizione
Fonti Le origini sono connettori a database, file o flussi in tempo reale da cui ottieni i dati. Consentono di importare i dati, utilizzando un'interfaccia utente semplice, così non devi preoccuparti di scrivere codice di basso livello.
Trasformazioni Le trasformazioni consentono di manipolare i dati dopo averli importati. Ad esempio, puoi clonare un record, formattare il formato JSON e persino creare trasformazioni personalizzate utilizzando il plug-in JavaScript.
Analisi I plug-in Analytics vengono utilizzati per eseguire aggregazioni come il raggruppamento e l'unione dei dati provenienti da origini diverse, nonché per eseguire operazioni di analisi e machine learning. Cloud Data Fusion fornisce plug-in integrati per vari casi d'uso di questo tipo.
Azioni I plug-in Action definiscono le azioni personalizzate pianificate per l'esecuzione durante un flusso di lavoro, ma non manipolano direttamente i dati nel flusso di lavoro. Ad esempio, con l'azione personalizzata Database, puoi eseguire un comando di database arbitrario alla fine della pipeline. In alternativa, puoi attivare un'azione per spostare i file all'interno di Cloud Storage.
Lavandini I dati devono essere scritti in un sink. Cloud Data Fusion contiene vari sink, come Cloud Storage, BigQuery, Spanner, database relazionali, file system, mainframe.
Collettori di errori Quando i nodi riscontrano valori nulli, errori logici o altre origini di errori, puoi utilizzare un plug-in di raccolta degli errori per rilevare gli errori. Puoi collegare questo plug-in all'output di qualsiasi plug-in di trasformazione o analisi per rilevare errori che corrispondono a una condizione da te definita. Puoi quindi elaborare questi errori in un flusso separato di elaborazione degli errori nella pipeline.
Pubblicazione di avvisi I plug-in Publisher Alert consentono di pubblicare notifiche quando si verificano eventi insoliti. I processi a valle possono quindi iscriversi a queste notifiche per attivare l'elaborazione personalizzata di questi avvisi.
Condizionali Le pipeline offrono plug-in per i flussi di controllo sotto forma di condizionali. I plug-in condizionali ti consentono di diramare la pipeline in due percorsi separati, a seconda che il predicato di condizione specificato restituisca vero o falso.

Se hai bisogno di un plug-in che non è stato fornito, puoi sviluppare un plug-in personalizzato in autonomia.

AVVISO: non è consigliabile installare un plug-in non attendibile perché potrebbe rappresentare un rischio per la sicurezza.

Profilo di calcolo

Un profilo Compute specifica come e dove viene eseguita una pipeline. Un profilo include tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisica di una pipeline. Ad esempio, un profilo include il tipo di cloud provider (come Google Cloud), il servizio da utilizzare sul cloud provider (come Dataproc), credenziali, risorse (memoria e CPU), immagine, numero minimo e massimo di nodi e altri valori.

Un profilo è identificato per nome e deve essere assegnato a un provisioner e alla relativa configurazione. Un profilo può esistere a livello di istanza di Cloud Data Fusion o a livello di spazio dei nomi.

Scoprite di più sui profili sul sito della documentazione di CDAP.

Funzionalità

Categoria Funzionalità
Sviluppo
  • Progettista di pipeline grafiche
  • Oltre 100 plug-in: connettori, trasformazioni e azioni
  • Trasformazioni visive senza codice
  • Più di 1000 trasformazioni integrate
  • Librerie della qualità dei dati
  • SDK per sviluppatori
Test
  • Debug della pipeline di visualizzazione
  • Framework di test
Esecuzione
  • Dataproc - batch (Apache Spark, Apache Hadoop MapReduce) e in tempo reale (Spark Streaming)
  • Controlla il flusso di dati e di pipeline nelle pipeline
Operazioni
  • API REST
  • Pianificazioni e attivatori
  • Dashboard di Monitoring
Metadati di integrazione
  • Acquisizione automatica e tecnica dei metadati.
  • Annotazioni dei metadati dell'attività
  • Cerca set di dati per parole chiave e schema
  • Derivazione a livello di set di dati e set di dati per la tracciabilità
Estensibilità
  • Plug-in personalizzati
  • Widget dell'interfaccia utente configurabili del plug-in
  • Provisioner personalizzati
  • Profili di calcolo personalizzati
Riutilizzabilità
  • Modelli per pipeline e plug-in
  • Argomenti e preferenze di runtime
  • Hub per la distribuzione di plug-in, pipeline e soluzioni riutilizzabili
Integrazioni di Google Cloud
  • GKE - Deployment delle istanze
  • Dataproc: esecuzione della pipeline (batch e in tempo reale)
  • Cloud KMS - Archiviazione sicura dei dati
  • Cloud SQL e Cloud Storage - archiviazione di metadati e entità
  • Persistent Disk: log e archiviazione delle metriche
  • console - gestione del ciclo di vita delle istanze
  • Suite operativa di Google Cloud (solo log di controllo)
Connettori (Google Cloud)
  • Cloud Storage
  • BigQuery
  • Cloud SQL
  • Pub/Sub
  • Spanner
  • Bigtable
  • Datastore
Connettori (non Google Cloud)
  • Servizi cloud pubblici
  • File system
  • DB relazionali
  • Negozi NoSQL
  • mainframe e altri sistemi legacy
Trasformazioni
  • Trasformazioni senza codice per pulizia, fusione, armonizzazione e mappatura
  • Trasformazioni interattive con feedback
  • Trasformazioni basate su codice (all'interno del browser) - Scala (Apache Spark), Python e JavaScript
  • Job Spark e MapReduce esistenti
Analisi
  • Aggregazioni
  • Unioni
  • Raggruppa per

Passaggi successivi