Cloud Data Fusion – Übersicht

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen, die schnell Datenpipelines erstellen und verwalten möchten. Mit der Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren und dann in verschiedene Zielsysteme übertragen, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.

Erste Schritte mit Cloud Data Fusion

Sie können in wenigen Minuten anfangen, Cloud Data Fusion kennenzulernen.

Cloud Data Fusion kennenlernen

In den folgenden Abschnitten werden die Hauptkomponenten von Cloud Data Fusion erläutert.

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Dabei übernimmt das Mandantenprojekt von dem Kundenprojekt alle Konfigurationen für Netzwerk und Firewall.

Cloud Data Fusion: Console

Die Cloud Data Fusion Console, auch als Steuerungsebene bezeichnet, besteht aus einer Reihe von API-Vorgängen und einer Weboberfläche, über die die Cloud Data Fusion-Instanz verwaltet werden kann, z. B. erstellt, gelöscht, neu gestartet und aktualisiert werden kann.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, auch als Datenebenenschicht bezeichnet, umfasst eine Reihe von REST API- und Weboberflächen-Vorgängen zum Erstellen, Ausführen und Verwalten von Pipelines und zugehörigen Artefakten.

Konzepte

In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt.

Konzept Beschreibung
Cloud Data Fusion-Instanz 
  • Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie per Cloud Console eine Cloud Data Fusion-Instanz.
  • Sie können mehrere Instanzen in einem Google Cloud Console-Projekt erstellen und die Region angeben, Google Cloud in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.
  • Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.
  • Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.
Namespace Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können sich Namespaces als Partitionierung der Instanz vorstellen. In einer einzelnen Instanz speichert ein Namespace die Daten und Metadaten einer Entität unabhängig von einem anderen Namespace.
Pipeline 
  • Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.
  • Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.
  • Pipelines ermöglichen es Ihnen, Ihre Workflows zur Datenverarbeitung mithilfe des logischen Ablaufs auszudrücken, während Cloud Data Fusion alle Funktionen bereitstellt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind.
Pipelineknoten 
  • Auf der Studio-Seite der Cloud Data Fusion-Weboberfläche werden Pipelines als eine Reihe von Knoten dargestellt. Sie sind in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet und bilden einen Datenfluss in eine Richtung.
  • Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Durch die Kombination von Quellen, Transformationen, Senken und andere Knoten können Sie Datenpipelines in der Weboberfläche von Cloud Data Fusion entwickeln.
Plug-in 
  • Plug-ins sind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können.
  • Cloud Data Fusion stellt derzeit Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen sowie Aktionen nach der Ausführung als Plug-ins bereit.
  • Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion-Weboberfläche.
  • Informationen zu den beliebten Cloud Data Fusion-Plug-ins finden Sie unter Cloud Data Fusion-Plug-ins.
Hub  Klicken Sie in der Cloud Data Fusion-Weboberfläche auf Hub, um Plug-ins, Beispielpipelines und andere Integrationen zu durchsuchen. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist es im Hub in jeder kompatiblen Instanz sichtbar. Das gilt auch dann, wenn die Instanz vor der Veröffentlichung des Plug-ins erstellt wurde.
Pipeline-Vorschau 
  • In Cloud Data Fusion Studio können Sie die Genauigkeit des Pipeline-Designs mithilfe der Vorschau anhand der Teilmenge der Daten testen.
  • Eine Pipeline in der Vorabversion wird im Mandantenprojekt ausgeführt.
Pipelineausführung 
  • Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines.
  • Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung.
  • Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.
  • Wenn Sie Ihre Dataproc-Cluster mithilfe von Technologien wie Terraform in kontrollierten Umgebungen verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Dataproc-Clustern ausführen.
Compute-Profil 
  • Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Profile enthalten alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind.
  • Ein Compute-Profil enthält beispielsweise Folgendes:
    • Ausführender Dienstleister
    • Ressourcen (Arbeitsspeicher und CPU)
    • Mindest- und Höchstzahl von Knoten
    • Andere Werte
  • Profile werden anhand ihres Namens identifiziert und müssen einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.
  • Das standardmäßige Compute-Profil von Cloud Data Fusion ist „Autoscaling“.
Wiederverwendbare Pipeline 
  • Mit wiederverwendbaren Datenpipelines in Cloud Data Fusion können Sie eine einzelne Pipeline erstellen, mit der ein Datenintegrationsmuster auf eine Vielzahl von Anwendungsfällen und Datensätzen angewendet werden kann.
  • Wiederverwendbare Pipelines sind besser verwaltebar, da die meisten Konfigurationseinstellungen einer Pipeline zur Laufzeit festgelegt werden, anstatt sie zur Entwurfszeit hartcodiert zu werden.
Trigger 
  • In Cloud Data Fusion können Sie einen Trigger für eine Datenpipeline (die nachgelagerte Pipeline) erstellen, damit er nach Abschluss einer oder mehrerer anderer Pipelines (vorgelagerte Pipelines) ausgeführt wird. Sie wählen aus, wann die nachgelagerte Pipeline ausgeführt wird, z. B. bei Erfolg, Fehler, Stopp oder einer beliebigen Kombination der vorgelagerten Pipeline.
  • Trigger sind in folgenden Fällen nützlich:
    • Bereinigen Ihrer Daten und für mehrere nachgelagerte Pipelines zur Verwendung zur Verfügung stellen.
    • Informationen wie Laufzeitargumente und Plug-in-Konfigurationen zwischen Pipelines freigeben. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
    • Sie haben eine Reihe dynamischer Pipelines, die mit den Daten von Stunde, Tag, Woche oder Monat ausgeführt werden können, anstelle einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.

Cloud Data Fusion-Ressourcen

Cloud Data Fusion-Ressourcen:

Nächste Schritte