Architettura e componenti

Un'istanza di Cloud Data Fusion viene eseguita all'interno di una zona di Compute Engine in Google Cloud. Un'istanza è composta da diverse tecnologie Google Cloud, tra cui Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk e Cloud Key Management Service.

Viene eseguito il provisioning di un'istanza di Cloud Data Fusion in un'unità di tenancy. Fornisce le funzionalità per la creazione e l'orchestrazione di pipeline di dati e per la gestione centralizzata dei metadati. Un'istanza di Cloud Data Fusion viene eseguita su un cluster GKE all'interno di un progetto tenant e utilizza Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch e Cloud KMS per l'archiviazione di metadati aziendali, tecnici e operativi.

I componenti principali dell'architettura di Cloud Data Fusion sono illustrati nelle sezioni seguenti.

Progetto tenant

Il set di servizi necessari per creare e orchestrare le pipeline di Cloud Data Fusion e i metadati della pipeline di archiviazione viene fornito in un progetto tenant all'interno di un'unità di tenancy. Viene creato un progetto tenant separato per ogni progetto del cliente in cui viene eseguito il provisioning delle istanze di Cloud Data Fusion. Il progetto tenant eredita tutte le configurazioni di networking e firewall del progetto del cliente.

Piano di controllo

Il piano di controllo è un insieme di operazioni API che si occupano dell'istanza Cloud Data Fusion stessa, ad esempio creazione, eliminazione, riavvio e aggiornamento.

Piano dati

Il piano dati fa riferimento a un insieme di operazioni dell'API REST che si occupano delle principali funzionalità di Cloud Data Fusion, come la creazione, l'esecuzione e il monitoraggio delle pipeline e degli artefatti correlati. Ad esempio, crei o interrompi una pipeline con le operazioni del piano dati. Per ulteriori informazioni, consulta la documentazione di riferimento CDAP.

Servizi di sistema

Set di servizi che Cloud Data Fusion utilizza per gestire il ciclo di vita della pipeline, l'orchestrazione e i metadati. Cloud Data Fusion orchestra questi servizi utilizzando GKE.

Interfaccia web

L'interfaccia web di Cloud Data Fusion è un'interfaccia grafica per sviluppare, gestire ed eseguire pipeline di dati, nonché per cercare, visualizzare e gestire i metadati di integrazione. L'interfaccia web viene eseguita anche nel cluster GKE.

Hub

Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub per sfogliare plug-in, pipeline di esempio e altre integrazioni. Quando viene rilasciata una nuova versione di un plug-in, è visibile nell'hub in ogni istanza compatibile. Questo vale anche se l'istanza è stata creata prima del rilascio del plug-in.

Archiviazione dei metadati

Cloud Data Fusion utilizza Cloud Storage, Cloud SQL, Persistent Disk ed Elasticsearch per archiviare metadati tecnici, aziendali e operativi.

Spazi dei nomi

Puoi utilizzare gli spazi dei nomi per partizionare un'istanza di Cloud Data Fusion e ottenere l'isolamento di applicazioni e dati negli ambienti di progettazione ed esecuzione. Per ulteriori informazioni, consulta Spazi dei nomi.

Dominio

Quando utilizzi un IP pubblico, l'interfaccia web e i servizi di backend di Cloud Data Fusion vengono eseguiti sul dominio datafusion.cdap.app. Vengono esposti tramite HTTPS e utilizzano un certificato SSL per criptare la connessione.

Esecuzione della pipeline

Cloud Data Fusion esegue le pipeline utilizzando i cluster Dataproc. Cloud Data Fusion esegue automaticamente il provisioning di cluster Dataproc temporanei, esegue le pipeline su di essi e poi elimina i cluster al termine dell'esecuzione della pipeline. Se vuoi, puoi anche scegliere di eseguire pipeline su cluster Dataproc esistenti.

I cluster Dataproc e i bucket Cloud Storage esistono nella stessa regione dell'istanza Cloud Data Fusion. Per ulteriori informazioni, consulta Posizione dei dati nei termini di servizio generali e le Domande frequenti su Cloud Data Fusion.

Suite operativa di Google Cloud

Facoltativamente, puoi scegliere di inviare i log alla suite operativa di Google Cloud. Per le istanze configurate per l'integrazione con la suite operativa di Google Cloud, alla suite operativa di Google Cloud vengono inviati due tipi di log:

  1. Audit log: per tutte le operazioni di gestione delle istanze, Cloud Data Fusion emette audit log nella suite operativa di Google Cloud.

  2. Log della pipeline:puoi trovare i log di seguito:

    • Le pipeline di Cloud Data Fusion nei log del cluster Dataproc nella suite operativa di Google Cloud
    • Pagina Pipeline Studio di Cloud Data Fusion in cui esegui la pipeline

Scopri di più sull'utilizzo dei log in Cloud Data Fusion.

Anteprima

Quando crei una pipeline di dati nella pagina Studio di Cloud Data Fusion, per visualizzare una parte dei dati provenienti dalle origini della pipeline, fai clic su Anteprima.

Una pipeline in anteprima viene eseguita nel progetto tenant e, quando esegui il deployment della pipeline, viene eseguita nel progetto del cliente sul profilo di computing pertinente. Dopo aver eseguito il deployment della pipeline, devi duplicarla per utilizzare la funzionalità Anteprima.

Passaggi successivi