Cloud Data Fusion – Übersicht

Cloud Data Fusion ist ein vollständig verwaltete, cloudnatives, Integrationsdienst zum schnellen Erstellen und Verwalten von Datenpipelines. Mit der Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren und dann in verschiedene Zielsysteme übertragen, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.

Erste Schritte mit Cloud Data Fusion

Sie können in wenigen Minuten anfangen, Cloud Data Fusion kennenzulernen.

Cloud Data Fusion kennenlernen

In den folgenden Abschnitten werden die Hauptkomponenten von Cloud Data Fusion erläutert.

Mandantenprojekt

Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt wird ein separates Mandantenprojekt erstellt, in dem Cloud Data Fusion-Instanzen werden bereitgestellt. Dabei übernimmt das Mandantenprojekt von dem Kundenprojekt alle Konfigurationen für Netzwerk und Firewall.

Cloud Data Fusion: Console

Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, ist ein Reihe von API-Vorgängen und eine Weboberfläche für die Cloud Data Fusion-Instanz selbst, erstellen, löschen, neu starten und aktualisieren.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, auch als Datenebenenschicht bezeichnet, umfasst eine Reihe von REST API- und Weboberflächen-Vorgängen zum Erstellen, Ausführen und Verwalten von Pipelines und zugehörigen Artefakten.

Konzepte

In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt.

Konzept Beschreibung
Cloud Data Fusion-Instanz 
  • Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie per Cloud Console eine Cloud Data Fusion-Instanz.
  • Sie können mehrere Instanzen in einer einzigen Google Cloud Console erstellen Projekt und kann die Google Cloud-Region zum Erstellen des Cloud Data Fusion-Instanzen enthält.
  • Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.
  • Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält, die Verwaltung des Pipelinelebenszyklus, Orchestrierung, Koordination und Metadatenmanagement. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.
Namespace Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können sich Namespaces als Partitionierung der Instanz vorstellen. In einem einzigen Fall In einem Namespace werden die Daten und Metadaten einer Entität unabhängig voneinander gespeichert. aus einem anderen Namespace.
Pipeline
  • Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.
  • Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.
  • Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung logischen Datenfluss, während Cloud Data Fusion alle Funktionen, die für die Ausführung in einer Ausführung erforderlich sind zu verbessern.
Pipelineknoten 
  • Gehen Sie auf der Studio-Seite der Weboberfläche von Cloud Data Fusion so vor: Pipelines werden als eine Reihe von Knoten dargestellt, die in einem Der azyklische Graph (DAG) bildet einen einseitigen Fluss.
  • Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Durch die Kombination von Quellen, Transformationen, Senken und andere Knoten können Sie Datenpipelines in der Weboberfläche von Cloud Data Fusion entwickeln.
Plug-in 
  • Ein Plug-in ist ein anpassbares Modul, mit dem die Funktionen von Cloud Data Fusion.
  • Cloud Data Fusion stellt derzeit Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen sowie Aktionen nach der Ausführung als Plug-ins bereit.
  • Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion-Weboberfläche.
  • Informationen zu den beliebten Cloud Data Fusion-Plug-ins finden Sie unter Cloud Data Fusion-Plug-ins.
Hub  Um Plug-ins in der Weboberfläche von Cloud Data Fusion zu durchsuchen, fügen Sie Pipelines und andere Integrationen auf Hub. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist es im Hub in jeder kompatiblen Instanz sichtbar. Das gilt auch dann, wenn die Instanz vor der Veröffentlichung des Plug-ins erstellt wurde.
Pipeline-Vorschau 
  • In Cloud Data Fusion Studio können Sie die Genauigkeit des Pipeline-Designs mithilfe der Vorschau anhand der Teilmenge der Daten testen.
  • Eine Pipeline in der Vorschau wird im Mandantenprojekt ausgeführt.
Pipelineausführung
  • Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines.
  • Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung.
  • Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.
  • Alternativ, wenn Sie Ihre Dataproc-Cluster verwalten in kontrollierten Umgebungen mithilfe von Technologien wie Terraform Sie können Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Cloud Dataproc-Clustern ausführen.
Compute-Profil 
  • Ein Computing-Profil gibt an, wie und wo eine Pipeline ausgeführt haben. Ein Profil enthält alle Informationen, die für die Einrichtung und die physische Ausführungsumgebung einer Pipeline löschen.
  • Ein Compute-Profil enthält beispielsweise Folgendes:
    • Ausführungsanbieter
    • Ressourcen (Arbeitsspeicher und CPU)
    • Minimale und maximale Knotenanzahl
    • Andere Werte
  • Ein Profil wird namentlich identifiziert und muss einem Bereitsteller zugewiesen werden und der zugehörigen Konfiguration. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.
  • Das standardmäßige Computing-Profil von Cloud Data Fusion ist Autoscaling.
Wiederverwendbare Pipeline 
  • Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine Anwendungsfälle und Datasets.
  • Wiederverwendbare Pipelines bieten eine bessere Verwaltung, da die meisten die Konfiguration einer Pipeline zur Ausführungszeit anzupassen, bei der Entwicklung hartcodiert.
Trigger 
  • In Cloud Data Fusion können Sie einen Trigger für eine Datenpipeline (die nachgelagerte Pipeline) erstellen, damit er nach Abschluss einer oder mehrerer anderer Pipelines (vorgelagerte Pipelines) ausgeführt wird. Sie entscheiden, wann die nachgelagerte Pipeline ausgeführt wird – für z. B. bei Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination davon der vorgelagerten Pipelineausführung.
  • Trigger sind in folgenden Fällen nützlich:
    • Daten einmalig bereinigt und dann für andere Nutzer zur Nutzung mehrerer nachgelagerter Pipelines.
    • Freigabeinformationen wie Laufzeitargumente und Plug-in Konfigurationen zwischen Pipelines. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
    • Eine Reihe dynamischer Pipelines, die mit den Daten die Stunde, den Tag, die Woche oder den Monat, anstatt eine statische Pipeline zu verwenden die bei jeder Ausführung aktualisiert werden muss.

Cloud Data Fusion-Ressourcen

Cloud Data Fusion-Ressourcen:

Nächste Schritte