Architektur und Komponenten

Eine Cloud Data Fusion-Instanz wird in einer Compute Engine-Zone in Google Cloud ausgeführt. Eine Instanz besteht aus mehreren Google Cloud-Technologien, darunter Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk und Cloud Key Management Service.

Cloud Data Fusion-Instanzen werden in einer Mandanteneinheit bereitgestellt. Das bietet die Möglichkeit, Datenpipelines zu erstellen und zu orchestrieren sowie Metadaten zentral zu verwalten. Die Instanzen werden auf einem GKE-Cluster in einem Mandantenprojekt ausgeführt und verwenden Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch und Cloud KMS zum Speichern von geschäftlichen, technischen und operativen Metadaten.

In den folgenden Abschnitten werden die Hauptkomponenten der Cloud Data Fusion-Architektur erläutert.

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Dabei übernimmt das Mandantenprojekt von dem Kundenprojekt alle Konfigurationen für Netzwerk und Firewall.

Systemdienste

Hierbei handelt es sich um die Dienste, mit denen Cloud Data Fusion den Pipeline-Lebenszyklus, die Orchestrierung und die Metadaten verwaltet. Cloud Data Fusion orchestriert diese Dienste mithilfe von GKE.

Benutzeroberfläche

Die Cloud Data Fusion-UI ist eine grafische Oberfläche zum Entwickeln, Verwalten und Ausführen von Datenpipelines. Außerdem können darüber Metadaten in integrierten Datasets gesucht, angezeigt und verwaltet werden. Die UI wird auch im GKE-Cluster ausgeführt.

Metadatenspeicher

Cloud Data Fusion verwendet Cloud Storage, Cloud SQL, Persistent Disk und Elasticsearch zum Speichern von technischen, geschäftlichen und operativen Metadaten.

Namespaces

Sie können Namespaces verwenden, um eine Cloud Data Fusion-Instanz zu partitionieren, um die Anwendungs- und Datenisolation in Ihren Design- und Ausführungsumgebungen zu erreichen. Weitere Informationen finden Sie unter Namespaces.

Domain

Wenn Sie öffentliche IP-Adressen verwenden, werden die Cloud Data Fusion-UI und die Back-End-Dienste in der Domain datafusion.cdap.app ausgeführt. Sie werden über HTTPS verfügbar gemacht und verwenden ein SSL-Zertifikat, um die Verbindung zu verschlüsseln.

Pipelineausführung

Cloud Data Fusion führt Pipelines mithilfe von Dataproc-Clustern aus. Dabei stellt Cloud Data Fusion automatisch sitzungsspezifische Dataproc-Cluster bereit, führt Pipelines darauf aus und fährt die Cluster nach Abschluss der Pipelineausführung herunter. Optional können Sie auch Pipelines für vorhandene Dataproc-Cluster ausführen.

Dataproc-Cluster und Cloud Storage-Buckets befinden sich in derselben Region wie die Cloud Data Fusion-Instanz. Weitere Informationen finden Sie in den allgemeinen Nutzungsbedingungen unter Speicherort der Daten und in den FAQ zu Cloud Data Fusion.

Operations-Suite von Google Cloud

Sie haben die Möglichkeit, Logs an die Operations-Suite von Google Cloud zu senden. Bei Instanzen, die für die Einbindung in die Operations-Suite von Google Cloud konfiguriert sind, werden zwei Arten von Logs an die Operations-Suite von Google Cloud gesendet:

  1. Audit-Logs: Cloud Data Fusion sendet für alle Instanzverwaltungsvorgänge Audit-Logs an die Operations-Suite von Google Cloud.

  2. Pipelinelogs:Logs aus Cloud Data Fusion-Pipelines finden Sie in den Dataproc-Clusterlogs in der Operations-Suite von Google Cloud oder auf der Seite "Cloud Data Fusion Pipeline Studio", in der Sie Führen Sie die Pipeline aus.

Mit Logs in Cloud Data Fusion arbeiten

Nächste Schritte