Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Cloud Data Fusion ist ein vollständig verwaltete, cloudnatives,
Integrationsdienst zum schnellen Erstellen und Verwalten von Datenpipelines. Mit der Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren und dann in verschiedene Zielsysteme übertragen, ohne die Infrastruktur verwalten zu müssen.
Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.
Erste Schritte mit Cloud Data Fusion
Sie können in wenigen Minuten anfangen, Cloud Data Fusion kennenzulernen.
In den folgenden Abschnitten werden die Hauptkomponenten von Cloud Data Fusion erläutert.
Mandantenprojekt
Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt wird ein separates Mandantenprojekt erstellt, in dem
Cloud Data Fusion-Instanzen werden bereitgestellt. Dabei übernimmt das Mandantenprojekt von dem Kundenprojekt alle Konfigurationen für Netzwerk und Firewall.
Cloud Data Fusion: Console
Die Cloud Data Fusion-Konsole, auch als Steuerungsebene bezeichnet, ist ein
Reihe von API-Vorgängen
und eine Weboberfläche für
die Cloud Data Fusion-Instanz selbst,
erstellen, löschen, neu starten und aktualisieren.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, auch als Datenebenenschicht bezeichnet, umfasst eine Reihe von REST API- und Weboberflächen-Vorgängen zum Erstellen, Ausführen und Verwalten von Pipelines und zugehörigen Artefakten.
Konzepte
In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt.
Eine Cloud Data Fusion-Instanz ist eine einzigartige Bereitstellung von
Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie per Cloud Console eine Cloud Data Fusion-Instanz.
Sie können mehrere Instanzen in einer einzigen Google Cloud Console erstellen
Projekt und kann die Google Cloud-Region zum Erstellen des
Cloud Data Fusion-Instanzen enthält.
Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige
Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten enthält,
die Verwaltung des Pipelinelebenszyklus, Orchestrierung,
Koordination und Metadatenmanagement. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.
Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können sich Namespaces als Partitionierung der Instanz vorstellen. In einem einzigen Fall
In einem Namespace werden die Daten und Metadaten einer Entität unabhängig voneinander gespeichert.
aus einem anderen Namespace.
Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.
Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.
Mit Pipelines können Sie Ihre Workflows zur Datenverarbeitung
logischen Datenfluss, während Cloud Data Fusion alle
Funktionen, die für die Ausführung in einer Ausführung erforderlich sind
zu verbessern.
Gehen Sie auf der Studio-Seite der Weboberfläche von Cloud Data Fusion so vor:
Pipelines werden als eine Reihe von Knoten dargestellt, die in einem
Der azyklische Graph (DAG) bildet einen einseitigen Fluss.
Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Durch die Kombination von Quellen, Transformationen, Senken und andere Knoten können Sie Datenpipelines in der Weboberfläche von Cloud Data Fusion entwickeln.
Ein Plug-in ist ein anpassbares Modul, mit dem die
Funktionen von Cloud Data Fusion.
Cloud Data Fusion stellt derzeit Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen sowie Aktionen nach der Ausführung als Plug-ins bereit.
Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion-Weboberfläche.
Um Plug-ins in der Weboberfläche von Cloud Data Fusion zu durchsuchen, fügen Sie
Pipelines und andere Integrationen auf Hub. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist es im Hub in jeder kompatiblen Instanz sichtbar. Das gilt auch dann, wenn die Instanz vor der Veröffentlichung des Plug-ins erstellt wurde.
Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines.
Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung.
Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.
Alternativ, wenn Sie Ihre Dataproc-Cluster verwalten
in kontrollierten Umgebungen mithilfe von Technologien wie Terraform
Sie können Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Cloud Dataproc-Clustern ausführen.
Ein Computing-Profil gibt an, wie und wo eine Pipeline
ausgeführt haben. Ein Profil enthält alle Informationen, die für die Einrichtung und
die physische Ausführungsumgebung einer Pipeline löschen.
Ein Compute-Profil enthält beispielsweise Folgendes:
Ausführungsanbieter
Ressourcen (Arbeitsspeicher und CPU)
Minimale und maximale Knotenanzahl
Andere Werte
Ein Profil wird namentlich identifiziert und muss einem Bereitsteller zugewiesen werden
und der zugehörigen Konfiguration. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.
Das standardmäßige Computing-Profil von Cloud Data Fusion ist
Autoscaling.
Wiederverwendbare Datenpipelines in Cloud Data Fusion ermöglichen das Erstellen
einer einzelnen Pipeline, die ein Datenintegrationsmuster auf eine
Anwendungsfälle und Datasets.
Wiederverwendbare Pipelines bieten eine bessere Verwaltung, da die meisten
die Konfiguration einer Pipeline
zur Ausführungszeit anzupassen,
bei der Entwicklung hartcodiert.
In Cloud Data Fusion können Sie einen Trigger für eine Datenpipeline (die nachgelagerte Pipeline) erstellen, damit er nach Abschluss einer oder mehrerer anderer Pipelines (vorgelagerte Pipelines) ausgeführt wird. Sie entscheiden, wann die nachgelagerte Pipeline ausgeführt wird – für
z. B. bei Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination davon
der vorgelagerten Pipelineausführung.
Trigger sind in folgenden Fällen nützlich:
Daten einmalig bereinigt und dann für andere Nutzer
zur Nutzung mehrerer nachgelagerter Pipelines.
Freigabeinformationen wie Laufzeitargumente und Plug-in
Konfigurationen zwischen Pipelines. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
Eine Reihe dynamischer Pipelines, die mit den Daten
die Stunde, den Tag, die Woche oder den Monat, anstatt eine statische Pipeline zu verwenden
die bei jeder Ausführung aktualisiert werden muss.
Cloud Data Fusion-Ressourcen
Cloud Data Fusion-Ressourcen:
Änderungen in den Versionshinweisen
Logs zu Funktionen, Änderungen und Einstellungen
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2024-10-10 (UTC)."],[],[]]