Mit Sammlungen den Überblick behalten
Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen, die schnell Datenpipelines erstellen und verwalten möchten. Mit der Cloud Data Fusion-Weboberfläche können Sie skalierbare Datenintegrationslösungen erstellen. Sie können damit Verbindungen zu verschiedenen Datenquellen herstellen, die Daten transformieren und dann in verschiedene Zielsysteme übertragen, ohne die Infrastruktur verwalten zu müssen.
Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP.
Erste Schritte mit Cloud Data Fusion
Sie können in wenigen Minuten anfangen, Cloud Data Fusion kennenzulernen.
In den folgenden Abschnitten werden die Hauptkomponenten von Cloud Data Fusion erläutert.
Mandantenprojekt
Die Dienste, die zum Erstellen und Orchestrieren von Cloud Data Fusion-Pipelines und zum Speichern von Pipeline-Metadaten erforderlich sind, werden in einem Mandantenprojekt in einer Mandanteneinheit bereitgestellt. Für jedes Kundenprojekt, in dem Cloud Data Fusion-Instanzen bereitgestellt werden, wird ein separates Mandantenprojekt erstellt. Dabei übernimmt das Mandantenprojekt von dem Kundenprojekt alle Konfigurationen für Netzwerk und Firewall.
Cloud Data Fusion: Console
Die Cloud Data Fusion Console, auch als Steuerungsebene bezeichnet, besteht aus einer Reihe von API-Vorgängen und einer Weboberfläche, über die die Cloud Data Fusion-Instanz verwaltet werden kann, z. B. erstellt, gelöscht, neu gestartet und aktualisiert werden kann.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, auch als Datenebenenschicht bezeichnet, umfasst eine Reihe von REST API- und Weboberflächen-Vorgängen zum Erstellen, Ausführen und Verwalten von Pipelines und zugehörigen Artefakten.
Konzepte
In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt.
Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie per Cloud Console eine Cloud Data Fusion-Instanz.
Sie können mehrere Instanzen in einem Google Cloud Console-Projekt erstellen und die Region angeben, Google Cloud in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.
Jede Cloud Data Fusion-Instanz enthält eine eindeutige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.
Ein Namespace ist eine logische Gruppierung von Anwendungen, Daten und den zugehörigen Metadaten in einer Cloud Data Fusion-Instanz. Sie können sich Namespaces als Partitionierung der Instanz vorstellen. In einer einzelnen Instanz speichert ein Namespace die Daten und Metadaten einer Entität unabhängig von einem anderen Namespace.
Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden.
Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.
Pipelines ermöglichen es Ihnen, Ihre Workflows zur Datenverarbeitung mithilfe des logischen Ablaufs auszudrücken, während Cloud Data Fusion alle Funktionen bereitstellt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind.
Auf der Studio-Seite der Cloud Data Fusion-Weboberfläche werden Pipelines als eine Reihe von Knoten dargestellt. Sie sind in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet und bilden einen Datenfluss in eine Richtung.
Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Durch die Kombination von Quellen, Transformationen, Senken und andere Knoten können Sie Datenpipelines in der Weboberfläche von Cloud Data Fusion entwickeln.
Plug-ins sind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können.
Cloud Data Fusion stellt derzeit Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen sowie Aktionen nach der Ausführung als Plug-ins bereit.
Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion-Weboberfläche.
Klicken Sie in der Cloud Data Fusion-Weboberfläche auf Hub, um Plug-ins, Beispielpipelines und andere Integrationen zu durchsuchen. Wenn eine neue Version eines Plug-ins veröffentlicht wird, ist es im Hub in jeder kompatiblen Instanz sichtbar. Das gilt auch dann, wenn die Instanz vor der Veröffentlichung des Plug-ins erstellt wurde.
Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines.
Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung.
Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.
Wenn Sie Ihre Dataproc-Cluster mithilfe von Technologien wie Terraform in kontrollierten Umgebungen verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Dataproc-Clustern ausführen.
Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Profile enthalten alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind.
Ein Compute-Profil enthält beispielsweise Folgendes:
Ausführender Dienstleister
Ressourcen (Arbeitsspeicher und CPU)
Mindest- und Höchstzahl von Knoten
Andere Werte
Profile werden anhand ihres Namens identifiziert und müssen einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.
Das standardmäßige Compute-Profil von Cloud Data Fusion ist „Autoscaling“.
Mit wiederverwendbaren Datenpipelines in Cloud Data Fusion können Sie eine einzelne Pipeline erstellen, mit der ein Datenintegrationsmuster auf eine Vielzahl von Anwendungsfällen und Datensätzen angewendet werden kann.
Wiederverwendbare Pipelines sind besser verwaltebar, da die meisten Konfigurationseinstellungen einer Pipeline zur Laufzeit festgelegt werden, anstatt sie zur Entwurfszeit hartcodiert zu werden.
In Cloud Data Fusion können Sie einen Trigger für eine Datenpipeline (die nachgelagerte Pipeline) erstellen, damit er nach Abschluss einer oder mehrerer anderer Pipelines (vorgelagerte Pipelines) ausgeführt wird. Sie wählen aus, wann die nachgelagerte Pipeline ausgeführt wird, z. B. bei Erfolg, Fehler, Stopp oder einer beliebigen Kombination der vorgelagerten Pipeline.
Trigger sind in folgenden Fällen nützlich:
Bereinigen Ihrer Daten und für mehrere nachgelagerte Pipelines zur Verwendung zur Verfügung stellen.
Informationen wie Laufzeitargumente und Plug-in-Konfigurationen zwischen Pipelines freigeben. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
Sie haben eine Reihe dynamischer Pipelines, die mit den Daten von Stunde, Tag, Woche oder Monat ausgeführt werden können, anstelle einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.
Cloud Data Fusion-Ressourcen
Cloud Data Fusion-Ressourcen:
Versionshinweisen enthalten Änderungslogs mit Features, Änderungen und eingestellten Funktionen.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Schwer verständlich","hardToUnderstand","thumb-down"],["Informationen oder Beispielcode falsch","incorrectInformationOrSampleCode","thumb-down"],["Benötigte Informationen/Beispiele nicht gefunden","missingTheInformationSamplesINeed","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-02-14 (UTC)."],[],[]]