Architektur und Komponenten

Eine Cloud Data Fusion-Instanz wird in einer Compute Engine-Zone in Google Cloud ausgeführt. Eine Instanz besteht aus verschiedenen Google Cloud-Technologien, darunter Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk und Cloud Key Management Service.

Eine Cloud Data Fusion-Instanz wird in einer Mandanteneinheit bereitgestellt. Er bietet die Möglichkeit, Datenpipelines zu erstellen und zu orchestrieren und Metadaten zentral zu verwalten. Eine Cloud Data Fusion-Instanz wird in einem GKE-Cluster in einem Mandantenprojekt ausgeführt und verwendet Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch und Cloud KMS zum Speichern geschäftlicher, technischer und operativer Metadaten.

In den folgenden Abschnitten werden die Hauptkomponenten der Cloud Data Fusion-Architektur erläutert.

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Dabei übernimmt das Mandantenprojekt von dem Kundenprojekt alle Konfigurationen für Netzwerk und Firewall.

Steuerungsebene

Die Steuerungsebene besteht aus einer Reihe von API-Vorgängen, die sich auf die Cloud Data Fusion-Instanz selbst beziehen, z. B. das Erstellen, Löschen, Neustarten und Aktualisieren der Instanz.

Datenebene

Die Datenebene bezieht sich auf eine Reihe von REST API-Vorgängen, die sich mit der Hauptfunktion von Cloud Data Fusion befassen, z. B. dem Erstellen, Ausführen und Überwachen von Pipelines und zugehörigen Artefakten. Sie erstellen oder beenden beispielsweise eine Pipeline mit Vorgängen auf Datenebene. Weitere Informationen finden Sie in der CDAP-Referenz.

Systemdienste

Eine Reihe von Diensten, die Cloud Data Fusion zur Verwaltung des Pipelinelebenszyklus, der Orchestrierung und der Metadaten verwendet. Cloud Data Fusion orchestriert diese Dienste mithilfe von GKE.

Weboberfläche

Die Cloud Data Fusion-Weboberfläche ist eine grafische Schnittstelle, über die Sie Datenpipelines entwickeln, verwalten und ausführen sowie Integrationsmetadaten suchen, ansehen und verwalten können. Die Weboberfläche wird auch im GKE-Cluster ausgeführt.

Hub

Klicken Sie in der Weboberfläche von Cloud Data Fusion auf Hub, um nach Plug-ins, Beispielpipelines und anderen Integrationen zu suchen. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist sie im Hub in jeder kompatiblen Instanz sichtbar. Dies gilt auch dann, wenn die Instanz erstellt wurde, bevor das Plug-in veröffentlicht wurde.

Metadatenspeicher

Cloud Data Fusion verwendet Cloud Storage, Cloud SQL, Persistent Disk und Elasticsearch zum Speichern von technischen, geschäftlichen und operativen Metadaten.

Namespaces

Sie können mit Namespaces eine Cloud Data Fusion-Instanz partitionieren, um eine Anwendungs- und Datenisolation in Ihren Design- und Ausführungsumgebungen zu erreichen. Weitere Informationen finden Sie unter Namespaces.

Domain

Bei Verwendung öffentlicher IP-Adressen werden die Weboberfläche und die Back-End-Dienste von Cloud Data Fusion in der Domain datafusion.cdap.app ausgeführt. Sie werden über HTTPS verfügbar gemacht und verwenden ein SSL-Zertifikat, um die Verbindung zu verschlüsseln.

Pipelineausführung

Cloud Data Fusion führt Pipelines mithilfe von Dataproc-Clustern aus. Dabei stellt Cloud Data Fusion automatisch sitzungsspezifische Dataproc-Cluster bereit, führt Pipelines darauf aus und fährt die Cluster nach Abschluss der Pipelineausführung herunter. Optional können Sie auch Pipelines für vorhandene Dataproc-Cluster ausführen.

Dataproc-Cluster und Cloud Storage-Buckets befinden sich in derselben Region wie die Cloud Data Fusion-Instanz. Weitere Informationen finden Sie unter Speicherort der Daten in den allgemeinen Dienstbedingungen und in den FAQs zu Cloud Data Fusion.

Operations-Suite von Google Cloud

Sie haben die Möglichkeit, Logs an die Operations-Suite von Google Cloud zu senden. Bei Instanzen, die für die Einbindung in die Operations-Suite von Google Cloud konfiguriert sind, werden zwei Arten von Logs an die Operations-Suite von Google Cloud gesendet:

  1. Audit-Logs: Cloud Data Fusion sendet für alle Instanzverwaltungsvorgänge Audit-Logs an die Operations-Suite von Google Cloud.

  2. Pipelinelogs: Sie finden Logs aus folgenden Quellen:

    • Cloud Data Fusion-Pipelines in den Dataproc-Clusterlogs in der Operations-Suite von Google Cloud
    • Seite Pipeline Studio von Cloud Data Fusion, auf der Sie Ihre Pipeline ausführen

Weitere Informationen zum Arbeiten mit Logs in Cloud Data Fusion

Vorschau

Wenn Sie auf der Cloud Data Fusion-Seite Studio eine Datenpipeline erstellen, klicken Sie auf Vorschau, um einen Teil der Daten aus den Pipelinequellen anzusehen.

Eine Pipeline in der Vorschau wird im Mandantenprojekt ausgeführt. Wenn Sie die Pipeline bereitstellen, wird sie im Kundenprojekt im relevanten Compute-Profil ausgeführt. Nachdem Sie die Pipeline bereitgestellt haben, müssen Sie sie duplizieren, um die Funktion „Vorschau“ verwenden zu können.

Nächste Schritte