Architettura e componenti

Un'istanza Cloud Data Fusion viene eseguita all'interno di una zona Compute Engine di Google Cloud. Un'istanza è composta da diverse tecnologie Google Cloud, tra cui Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, disco permanente e Cloud Key Management Service.

Viene eseguito il provisioning di un'istanza Cloud Data Fusion in un'unità tenancy. Offre la possibilità di creare e orchestrare pipeline di dati, nonché di gestire centralmente i metadati. Viene eseguito su un cluster GKE all'interno di un progetto tenant e utilizza Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch e Cloud KMS per archiviare i metadati aziendali, tecnici e operativi.

Le componenti principali dell'architettura Cloud Data Fusion sono spiegate nelle sezioni seguenti.

Progetto tenant

Il set di servizi necessario per creare e orchestrare le pipeline di Cloud Data Fusion e i metadati della pipeline di archiviazione viene eseguito in un progetto tenant all'interno di un'unità di tenancy. Viene creato un progetto tenant separato per ogni progetto cliente in cui viene eseguito il provisioning delle istanze Cloud Data Fusion. Il progetto tenant eredita tutte le configurazioni di networking e firewall del progetto del cliente.

Servizi di sistema

Si tratta del set di servizi utilizzati da Cloud Data Fusion per gestire il ciclo di vita delle pipeline, l'orchestrazione e i metadati. Cloud Data Fusion orchestra questi servizi utilizzando GKE.

Interfaccia utente

L'interfaccia utente di Cloud Data Fusion è una Graphic Interface per sviluppare, gestire ed eseguire pipeline di dati nonché per cercare, visualizzare e gestire i metadati di integrazione. L'interfaccia utente viene eseguita anche nel cluster GKE.

Archiviazione dei metadati

Cloud Data Fusion utilizza Cloud Storage, Cloud SQL, Persistent Disk ed Elasticsearch per archiviare metadati tecnici, aziendali e operativi.

Spazi dei nomi

Puoi utilizzare gli spazi dei nomi per partizionare un'istanza di Cloud Data Fusion e ottenere così l'isolamento di applicazioni e dati nei tuoi ambienti di progettazione ed esecuzione. Per ulteriori informazioni, consulta gli spazi dei nomi.

Dominio

Quando utilizzi un IP pubblico, l'interfaccia utente e i servizi di backend di Cloud Data Fusion vengono eseguiti sul dominio datafusion.cdap.app. Vengono esposti utilizzando il protocollo HTTPS e utilizzano un certificato SSL per criptare la connessione.

Esecuzione della pipeline

Cloud Data Fusion esegue pipeline utilizzando cluster Kubernetes. Cloud Data Fusion esegue automaticamente il provisioning dei cluster Dataproc temporanei, su cui vengono eseguite le pipeline, quindi li scompone al termine dell'esecuzione della pipeline. Facoltativamente, puoi scegliere di eseguire le pipeline su cluster Dataproc esistenti.

I cluster Dataproc e i bucket Cloud Storage esistono nella stessa area geografica dell'istanza di Cloud Data Fusion. Per ulteriori informazioni, consulta la sezione Località dei dati nei termini generali del servizio e le Domande frequenti su Cloud Data Fusion.

Suite operativa di Google Cloud

Se vuoi, puoi inviare log alla suite operativa di Google Cloud. Per le istanze configurate per l'integrazione con la suite operativa di Google Cloud, alla suite operativa di Google Cloud vengono inviati due tipi di log:

  1. Audit log: per tutte le operazioni di gestione delle istanze, Cloud Data Fusion emette gli audit log alla suite operativa di Google Cloud.

  2. Log pipeline: puoi trovare i log delle pipeline di Cloud Data Fusion nei log del cluster Dataproc nella suite operativa di Google Cloud o nella pagina Cloud Data Fusion Pipeline di Studio dove esegui la pipeline.

Scopri di più sull'utilizzo dei log in Cloud Data Fusion.

Passaggi successivi