Cloud Data Fusion – Übersicht

Cloud Data Fusion ist ein vollständig verwaltete, cloudnatives, Integrationsdienst zum schnellen Erstellen und Verwalten von Datenpipelines. Die Mit der Weboberfläche von Cloud Data Fusion können Sie eine skalierbare Datenintegration erstellen Lösungen zu finden. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren an verschiedene Zielsysteme übertragen, ohne die und Infrastruktur.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.

Erste Schritte mit Cloud Data Fusion

Sie können Cloud Data Fusion in wenigen Minuten erkunden.

Cloud Data Fusion kennenlernen

Die Hauptkomponenten von Cloud Data Fusion werden im Folgenden erläutert .

Mandantenprojekt

Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion erforderlich sind Pipelines und Speicher-Pipeline-Metadaten werden in einem Mandanten bereitgestellt, Projekt, innerhalb einer Mandanten Einheit. Für jedes Kundenprojekt wird ein separates Mandantenprojekt erstellt, in dem Cloud Data Fusion-Instanzen werden bereitgestellt. Das Mandantenprojekt übernimmt alle Netzwerk- und Firewallkonfigurationen aus dem Kundenprojekt abzurufen.

Cloud Data Fusion: Console

Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, ist ein Reihe von API-Vorgängen und eine Weboberfläche für die Cloud Data Fusion-Instanz selbst, erstellen, löschen, neu starten und aktualisieren.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, auch als Datenebene bezeichnet, besteht aus einer REST API und Weboberfläche die Erstellung, Ausführung und Verwaltung von Pipelines und verwandten Artefakten.

Konzepte

In diesem Abschnitt werden einige der Kernkonzepte von Cloud Data Fusion vorgestellt.

Konzept Beschreibung
Cloud Data Fusion-Instanz
  • Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion Erstellen einer Cloud Data Fusion-Instanz über die Google Cloud Console
  • Sie können mehrere Instanzen in einer einzigen Google Cloud Console erstellen Projekt und kann die Google Cloud-Region zum Erstellen des Cloud Data Fusion-Instanzen enthält.
  • Basierend auf Ihren Anforderungen und Kostenbeschränkungen können Sie Entwickler, Basic oder Enterprise Instanz.
  • Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält, die Verwaltung des Pipelinelebenszyklus, Orchestrierung, Koordination und Metadatenmanagement. Diese Dienste werden mit lang andauernden Ressourcen Mandantenprojekt
Namespace Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und zugehörige Metadaten in einer Cloud Data Fusion-Instanz. Sie können darüber nachdenken, von Namespaces als Partitionierung der Instanz. In einem einzigen Fall In einem Namespace werden die Daten und Metadaten einer Entität unabhängig voneinander gespeichert. aus einem anderen Namespace.
Pipeline
  • Eine Pipeline ist eine Möglichkeit, Daten visuell zu gestalten und zu steuern, zum Extrahieren, Transformieren, Kombinieren, Aggregieren und Laden von Daten aus lokalen und Cloud-Datenquellen.
  • Mit Pipelines können Sie komplexe Datenverarbeitungen erstellen Workflows, die Ihnen bei der Datenaufnahme, -integration und Migrationsprobleme. Mit Cloud Data Fusion können Sie sowohl Batch- und Echtzeitpipelines verwendet werden.
  • Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung logischen Datenfluss, während Cloud Data Fusion alle Funktionen, die für die Ausführung in einer Ausführung erforderlich sind. zu verbessern.
Pipelineknoten
  • Gehen Sie auf der Studio-Seite der Weboberfläche von Cloud Data Fusion so vor: Pipelines werden als eine Reihe von Knoten dargestellt, die in einem Der azyklische Graph (DAG) bildet einen einseitigen Fluss.
  • Knoten stehen für die verschiedenen Aktionen, die Sie mit Ihrem z. B. das Lesen aus Quellen, das Durchführen von Daten Transformationen und Schreiben der Ausgabe in Senken. Sie können Daten entwickeln, Pipelines in der Weboberfläche von Cloud Data Fusion durch Quellen, Transformationen, Senken und anderen Knoten.
Plug-in
  • Ein Plug-in ist ein anpassbares Modul, mit dem die Funktionen von Cloud Data Fusion.
  • Cloud Data Fusion bietet Plug-ins für Quellen, Transformationen, Aggregaten, Senken, Fehler-Collectors, Benachrichtigungs-Publishern, Aktionen und Aktionen nach der Ausführung.
  • Ein Plug-in wird manchmal als Knoten bezeichnet. der Weboberfläche von Cloud Data Fusion.
  • Um die beliebten Cloud Data Fusion-Plug-ins zu entdecken und darauf zuzugreifen, Siehe Cloud Data Fusion-Plug-ins
Hub Um Plug-ins in der Weboberfläche von Cloud Data Fusion zu durchsuchen, fügen Sie Pipelines und andere Integrationen auf Hub. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist sie jederzeit im Hub sichtbar. die kompatibel ist. Dies gilt auch dann, wenn die Instanz vor dem das Plug-in veröffentlicht wurde.
Pipelinevorschau
  • Mit Cloud Data Fusion Studio können Sie die Genauigkeit mithilfe von Preview (Vorschau) für die Teilmenge der Daten ausführen.
  • Eine Pipeline in der Vorschau wird im Mandantenprojekt ausgeführt.
Pipelineausführung
  • Cloud Data Fusion erstellt sitzungsspezifische Ausführungsumgebungen, Pipelines ausführen.
  • Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung
  • Cloud Data Fusion stellt eine sitzungsspezifische Dataproc-Cluster in Ihrem Kundenprojekt am einer Pipelineausführung beginnen, führt die Pipeline mit Spark in der Cluster erstellt und löscht den Cluster, nachdem die Pipelineausführung abgeschlossen ist.
  • Alternativ, wenn Sie Ihre Dataproc-Cluster verwalten in kontrollierten Umgebungen mithilfe von Technologien wie Terraform Sie können Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In Umgebungen können Sie Pipelines für vorhandene Dataproc-Cluster
Compute-Profil
  • Ein Computing-Profil gibt an, wie und wo eine Pipeline ausgeführt haben. Ein Profil enthält alle Informationen, die für die Einrichtung und die physische Ausführungsumgebung einer Pipeline löschen.
  • Ein Computing-Profil enthält beispielsweise Folgendes:
    • Bereitsteller der Ausführung
    • Ressourcen (Arbeitsspeicher und CPU)
    • Minimale und maximale Knotenanzahl
    • Andere Werte
  • Ein Profil wird namentlich identifiziert und muss einem Bereitsteller zugewiesen werden und der zugehörigen Konfiguration. Ein Profil kann entweder auf der Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene.
  • Das standardmäßige Computing-Profil von Cloud Data Fusion ist Autoscaling.
Wiederverwendbare Pipeline
  • Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine Anwendungsfälle und Datasets.
  • Wiederverwendbare Pipelines ermöglichen eine bessere Verwaltung, da die meisten die Konfiguration einer Pipeline zur Ausführungszeit anzupassen, bei der Entwicklung hartcodiert.
Trigger
  • Cloud Data Fusion unterstützt das Erstellen eines Triggers für Daten (auch nachgelagerte Pipeline genannt), um sie bei die Fertigstellung einer oder mehrerer verschiedener Pipelines (sogenannte vorgelagerte Pipelines Pipelines) Sie entscheiden, wann die nachgelagerte Pipeline ausgeführt wird – für z. B. bei Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination davon, der vorgelagerten Pipelineausführung.
  • Trigger sind in folgenden Fällen nützlich:
    • Daten einmalig bereinigt und dann für andere Nutzer zur Nutzung mehrerer nachgelagerter Pipelines.
    • Freigabeinformationen wie Laufzeitargumente und Plug-in Konfigurationen zwischen Pipelines. Dies wird als Nutzlast Konfiguration.
    • Eine Reihe dynamischer Pipelines, die mit den Daten die Stunde, den Tag, die Woche oder den Monat, anstatt eine statische Pipeline zu verwenden die bei jeder Ausführung aktualisiert werden muss.

Cloud Data Fusion-Ressourcen

Erkunden Sie Ressourcen zu Cloud Data Fusion:

Nächste Schritte