Cloud Data Fusion – Übersicht

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen zur schnellen Erstellung und Verwaltung von Datenpipelines. Über die Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit eine Verbindung zu verschiedenen Datenquellen herstellen, die Daten transformieren und dann an verschiedene Zielsysteme übertragen, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.

Erste Schritte mit Cloud Data Fusion

Sie können Cloud Data Fusion in wenigen Minuten erkunden.

Cloud Data Fusion kennenlernen

Die Hauptkomponenten von Cloud Data Fusion werden in den folgenden Abschnitten erläutert.

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt innerhalb einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Das Mandantenprojekt übernimmt alle Netzwerk- und Firewallkonfigurationen vom Kundenprojekt.

Cloud Data Fusion: Console

Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, besteht aus einer Reihe von API-Vorgängen und einer Weboberfläche für das Erstellen, Löschen, Neustarten und Aktualisieren der Cloud Data Fusion-Instanz selbst.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, auch als Datenebene bezeichnet, besteht aus einer Reihe von Vorgängen für die REST API und der Weboberfläche, die das Erstellen, Ausführen und Verwalten von Pipelines und zugehörigen Artefakten umfassen.

Konzepte

In diesem Abschnitt werden einige der Kernkonzepte von Cloud Data Fusion vorgestellt.

Konzept Beschreibung
Cloud Data Fusion-Instanzen
  • Eine Instanz von Cloud Data Fusion ist eine eindeutige Bereitstellung von Cloud Data Fusion. Erstellen Sie zuerst eine Cloud Data Fusion-Instanz über die Google Cloud Console.
  • Sie können in einem Google Cloud Console-Projekt mehrere Instanzen erstellen und die Google Cloud-Region angeben, in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.
  • Je nach Anforderungen und Kostenbeschränkungen können Sie eine Entwickler-, Basic- oder Enterprise-Instanz erstellen.
  • Jede Cloud Data Fusion-Instanz enthält ein eindeutiges, unabhängiges Cloud Data Fusion-Deployment mit einer Reihe von Diensten, die für die Verwaltung, Orchestrierung, Koordination und Metadatenverwaltung im Pipeline-Lebenszyklus zuständig sind. Diese Dienste werden mit Ressourcen mit langer Ausführungszeit in einem Mandantenprojekt ausgeführt.
Namespace Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können sich Namespaces als Partitionierung der Instanz vorstellen. In einer einzelnen Instanz speichert ein Namespace die Daten und Metadaten einer Entität unabhängig von einem anderen Namespace.
Pipeline
  • Eine Pipeline ist eine Möglichkeit, Daten visuell zu gestalten und Datenflüsse zu steuern, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, umzuwandeln, zusammenzuführen, zu aggregieren und zu laden.
  • Mit Pipelines können Sie komplexe Datenverarbeitungsworkflows erstellen, mit denen Sie Probleme bei der Datenaufnahme, -integration und -migration lösen können. Sie können Cloud Data Fusion verwenden, um je nach Ihren Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.
  • Mit Pipelines können Sie Ihre Datenverarbeitungsworkflows mithilfe eines logischen Datenflusses ausdrücken, während Cloud Data Fusion alle Funktionen übernimmt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind.
Pipelineknoten
  • Auf der Studio-Seite der Cloud Data Fusion-Weboberfläche werden Pipelines als eine Reihe von Knoten dargestellt, die in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet sind und einen Einwegfluss bilden.
  • Knoten stellen die verschiedenen Aktionen dar, die Sie mit Ihren Pipelines ausführen können, z. B. das Lesen aus Quellen, das Durchführen von Datentransformationen und das Schreiben von Ausgaben in Senken. Sie können Datenpipelines in der Cloud Data Fusion-Weboberfläche entwickeln, indem Sie Quellen, Transformationen, Senken und andere Knoten miteinander verbinden.
Plug‑ins
  • Ein Plug-in ist ein anpassbares Modul, mit dem die Funktionen von Cloud Data Fusion erweitert werden können.
  • Cloud Data Fusion bietet Plug-ins für Quellen, Transformationen, Aggregate, Senken, Fehlererfassung, Benachrichtigungs-Publisher, Aktionen und Aktionen nach der Ausführung.
  • Ein Plug-in wird manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion-Weboberfläche.
  • Informationen zu beliebten Cloud Data Fusion-Plug-ins finden Sie unter Cloud Data Fusion-Plug-ins.
Hub Klicken Sie in der Weboberfläche von Cloud Data Fusion auf Hub, um nach Plug-ins, Beispielpipelines und anderen Integrationen zu suchen. Wenn eine neue Version eines Plug-ins veröffentlicht wird, wird sie im Hub in jeder kompatiblen Instanz angezeigt. Dies gilt auch dann, wenn die Instanz vor der Veröffentlichung des Plug-ins erstellt wurde.
Pipelinevorschau
  • In Cloud Data Fusion Studio können Sie die Genauigkeit des Pipelinedesigns mithilfe der Vorschau einer Teilmenge der Daten testen.
  • Eine Pipeline in der Vorschau wird im Mandantenprojekt ausgeführt.
Pipelineausführung
  • Cloud Data Fusion erstellt sitzungsspezifische Ausführungsumgebungen zum Ausführen von Pipelines.
  • Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung
  • Cloud Data Fusion stellt einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt zu Beginn einer Pipelineausführung bereit, führt die Pipeline mit Spark im Cluster aus und löscht den Cluster nach Abschluss der Pipelineausführung.
  • Wenn Sie Dataproc-Cluster in kontrollierten Umgebungen mithilfe von Technologien wie Terraform verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In diesen Umgebungen können Sie Pipelines für vorhandene Dataproc-Cluster ausführen.
Compute-Profile
  • Ein Compute-Profil gibt an, wie und wo eine Pipeline ausgeführt wird. Ein Profil enthält alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind.
  • Ein Compute-Profil enthält beispielsweise Folgendes:
    • Bereitsteller der Ausführung
    • Ressourcen (Arbeitsspeicher und CPU)
    • Minimale und maximale Anzahl von Knoten
    • Andere Werte
  • Ein Profil wird namentlich identifiziert und muss einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.
  • Das Compute-Standardprofil von Cloud Data Fusion ist Autoscaling.
Wiederverwendbare Pipelines
  • Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine Vielzahl von Anwendungsfällen und Datasets anwenden kann.
  • Wiederverwendbare Pipelines bieten eine bessere Verwaltung, da der Großteil der Konfiguration einer Pipeline bei der Ausführung festgelegt wird, anstatt sie bei der Entwicklung hartzucodieren.
Trigger
  • Cloud Data Fusion unterstützt das Erstellen eines Triggers für eine Datenpipeline (nachgelagerte Pipeline genannt), der nach Abschluss einer oder mehrerer verschiedener Pipelines (sogenannte Upstream-Pipelines) ausgeführt wird. Sie legen fest, wann die nachgelagerte Pipeline ausgeführt wird, z. B. nach Erfolg, Fehler, Stopp oder einer beliebigen Kombination davon.
  • Trigger sind in folgenden Fällen nützlich:
    • Sie bereinigen Ihre Daten einmal und stellen sie dann mehreren nachgelagerten Pipelines zur Nutzung zur Verfügung.
    • Teilen von Informationen wie Laufzeitargumenten und Plug-in-Konfigurationen zwischen Pipelines. Dies wird als Nutzlastkonfiguration bezeichnet.
    • Vorhandensein einer Reihe dynamischer Pipelines, die mit den Daten der Stunde, des Tages, der Woche oder des Monats ausgeführt werden können, anstatt eine statische Pipeline zu verwenden, die bei jeder Ausführung aktualisiert werden muss.

Cloud Data Fusion-Ressourcen

Sehen Sie sich Ressourcen zu Cloud Data Fusion an:

Nächste Schritte