Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Cloud Data Fusion ist ein vollständig verwaltete, cloudnatives,
Integrationsdienst zum schnellen Erstellen und Verwalten von Datenpipelines. Die
Mit der Weboberfläche von Cloud Data Fusion können Sie eine skalierbare Datenintegration erstellen
Lösungen zu finden. Sie können damit Verbindungen zu
verschiedenen Datenquellen herstellen, die Daten transformieren
an verschiedene Zielsysteme übertragen, ohne die
und Infrastruktur.
Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.
Erste Schritte mit Cloud Data Fusion
Sie können Cloud Data Fusion in wenigen Minuten erkunden.
Konzepte: Den Schlüssel verstehen
Terminologie, die in Cloud Data Fusion verwendet wird.
Schnellstart: Lernen Sie Cloud Data Fusion kennen, indem Sie Ihre erste
Pipeline
Cloud Data Fusion kennenlernen
Die Hauptkomponenten von Cloud Data Fusion werden im Folgenden erläutert
.
Mandantenprojekt
Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion erforderlich sind
Pipelines und Speicher-Pipeline-Metadaten werden in einem Mandanten bereitgestellt,
Projekt, innerhalb einer Mandanten
Einheit. Für jedes Kundenprojekt wird ein separates Mandantenprojekt erstellt, in dem
Cloud Data Fusion-Instanzen werden bereitgestellt. Das Mandantenprojekt übernimmt
alle Netzwerk- und Firewallkonfigurationen
aus dem Kundenprojekt abzurufen.
Cloud Data Fusion: Console
Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, ist ein
Reihe von API-Vorgängen
und eine Weboberfläche für
die Cloud Data Fusion-Instanz selbst,
erstellen, löschen, neu starten und aktualisieren.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, auch als Datenebene bezeichnet, besteht aus einer
REST API und Weboberfläche
die Erstellung, Ausführung und Verwaltung von Pipelines und
verwandten Artefakten.
Konzepte
In diesem Abschnitt werden einige der Kernkonzepte von Cloud Data Fusion vorgestellt.
Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von
Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion
Erstellen einer Cloud Data Fusion-Instanz über die
Google Cloud Console
Sie können mehrere Instanzen in einer einzigen Google Cloud Console erstellen
Projekt und kann die Google Cloud-Region zum Erstellen des
Cloud Data Fusion-Instanzen enthält.
Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige
Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält,
die Verwaltung des Pipelinelebenszyklus, Orchestrierung,
Koordination und Metadatenmanagement. Diese Dienste werden mit
lang andauernden Ressourcen
Mandantenprojekt
Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und
zugehörige Metadaten in einer Cloud Data Fusion-Instanz. Sie können darüber nachdenken,
von Namespaces als Partitionierung der Instanz. In einem einzigen Fall
In einem Namespace werden die Daten und Metadaten einer Entität unabhängig voneinander gespeichert.
aus einem anderen Namespace.
Eine Pipeline ist eine Möglichkeit, Daten visuell zu gestalten und zu steuern,
zum Extrahieren, Transformieren, Kombinieren, Aggregieren und Laden von Daten aus
lokalen und Cloud-Datenquellen.
Mit Pipelines können Sie komplexe Datenverarbeitungen erstellen
Workflows, die Ihnen bei der Datenaufnahme, -integration und
Migrationsprobleme. Mit Cloud Data Fusion können Sie sowohl
Batch- und Echtzeitpipelines
verwendet werden.
Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung
logischen Datenfluss, während Cloud Data Fusion alle
Funktionen, die für die Ausführung in einer Ausführung erforderlich sind.
zu verbessern.
Gehen Sie auf der Studio-Seite der Weboberfläche von Cloud Data Fusion so vor:
Pipelines werden als eine Reihe von Knoten dargestellt, die in einem
Der azyklische Graph (DAG) bildet einen einseitigen Fluss.
Knoten stehen für die verschiedenen Aktionen, die Sie mit Ihrem
z. B. das Lesen aus Quellen, das Durchführen von Daten
Transformationen und Schreiben der Ausgabe in Senken. Sie können Daten entwickeln,
Pipelines in der Weboberfläche von Cloud Data Fusion durch
Quellen, Transformationen, Senken und anderen Knoten.
Ein Plug-in ist ein anpassbares Modul, mit dem die
Funktionen von Cloud Data Fusion.
Cloud Data Fusion bietet Plug-ins für Quellen, Transformationen,
Aggregaten, Senken, Fehler-Collectors, Benachrichtigungs-Publishern, Aktionen und
Aktionen nach der Ausführung.
Ein Plug-in wird manchmal als Knoten bezeichnet.
der Weboberfläche von Cloud Data Fusion.
Um die beliebten Cloud Data Fusion-Plug-ins zu entdecken und darauf zuzugreifen,
Siehe
Cloud Data Fusion-Plug-ins
Um Plug-ins in der Weboberfläche von Cloud Data Fusion zu durchsuchen, fügen Sie
Pipelines und andere Integrationen auf Hub. Wenn eine neue
Version eines Plug-ins veröffentlicht wird, ist sie jederzeit im Hub sichtbar.
die kompatibel ist. Dies gilt auch dann, wenn die Instanz vor dem
das Plug-in veröffentlicht wurde.
Cloud Data Fusion erstellt sitzungsspezifische
Ausführungsumgebungen,
Pipelines ausführen.
Cloud Data Fusion unterstützt Dataproc als
Ausführungsumgebung
Cloud Data Fusion stellt eine sitzungsspezifische
Dataproc-Cluster in Ihrem Kundenprojekt am
einer Pipelineausführung beginnen, führt die Pipeline mit Spark in der
Cluster erstellt und löscht den Cluster, nachdem die Pipelineausführung
abgeschlossen ist.
Alternativ, wenn Sie Ihre Dataproc-Cluster verwalten
in kontrollierten Umgebungen mithilfe von Technologien wie Terraform
Sie können Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In
Umgebungen können Sie Pipelines für vorhandene
Dataproc-Cluster
Ein Computing-Profil gibt an, wie und wo eine Pipeline
ausgeführt haben. Ein Profil enthält alle Informationen, die für die Einrichtung und
die physische Ausführungsumgebung einer Pipeline löschen.
Ein Computing-Profil enthält beispielsweise Folgendes:
Bereitsteller der Ausführung
Ressourcen (Arbeitsspeicher und CPU)
Minimale und maximale Knotenanzahl
Andere Werte
Ein Profil wird namentlich identifiziert und muss einem Bereitsteller zugewiesen werden
und der zugehörigen Konfiguration. Ein Profil kann entweder auf der
Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene.
Das standardmäßige Computing-Profil von Cloud Data Fusion ist
Autoscaling.
Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen
einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine
Anwendungsfälle und Datasets.
Wiederverwendbare Pipelines ermöglichen eine bessere Verwaltung, da die meisten
die Konfiguration einer Pipeline
zur Ausführungszeit anzupassen,
bei der Entwicklung hartcodiert.
Cloud Data Fusion unterstützt das Erstellen eines Triggers für Daten
(auch nachgelagerte Pipeline genannt), um sie bei
die Fertigstellung einer oder mehrerer verschiedener Pipelines (sogenannte vorgelagerte Pipelines
Pipelines) Sie entscheiden, wann die nachgelagerte Pipeline ausgeführt wird – für
z. B. bei Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination davon,
der vorgelagerten Pipelineausführung.
Trigger sind in folgenden Fällen nützlich:
Daten einmalig bereinigt und dann für andere Nutzer
zur Nutzung mehrerer nachgelagerter Pipelines.
Freigabeinformationen wie Laufzeitargumente und Plug-in
Konfigurationen zwischen Pipelines. Dies wird als Nutzlast
Konfiguration.
Eine Reihe dynamischer Pipelines, die mit den Daten
die Stunde, den Tag, die Woche oder den Monat, anstatt eine statische Pipeline zu verwenden
die bei jeder Ausführung aktualisiert werden muss.
Cloud Data Fusion-Ressourcen
Erkunden Sie Ressourcen zu Cloud Data Fusion:
Änderungen in den Versionshinweisen
Logs zu Funktionen, Änderungen und verworfenen Funktionen