Was ist Cloud Data Fusion?

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen, die schnell Datenpipelines erstellen und verwalten möchten.

Mit der Cloud Data Fusion-Web-UI können Sie skalierbare Datenintegrationslösungen erstellen, um Daten zu bereinigen, vorzubereiten, zu vermischen, zu übertragen und zu transformieren, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP. Auf dieser Seite finden Sie Links zur CDAP-Dokumentationsseite. Dort finden Sie ausführlichere Informationen.

Interfaces

Um Cloud Data Fusion zu nutzen, können Sie die visuelle Web-UI oder Befehlszeilentools verwenden.

Verwendung der codefreien Web-UI

Wenn Sie Cloud Data Fusion verwenden, verwenden Sie sowohl die Google Cloud Console als auch die separate Cloud Data Fusion-Web-UI.

  • In der Google Cloud Console erstellen Sie ein Google Cloud-Projekt, erstellen und löschen Instanzen von Cloud Data Fusion (eindeutige Bereitstellungen von Cloud Data Fusion) und rufen Details zu den Instanzen von Cloud Data Fusion auf.

  • In der Cloud Data Fusion-Benutzeroberfläche verwenden Sie verschiedene Seiten, wie z. B. Pipeline Studio oder Wrangler, um Datenpipelines visuell zu entwerfen und die Cloud Data Fusion-Funktionalität zu nutzen.

Auf übergeordneter Ebene führen Sie diese Schritte aus:

  1. Erstellen Sie eine Cloud Data Fusion-Instanz in der Google Cloud Console.

  2. Suchen Sie in der Google Cloud Console auf der Seite „Instanzen“ nach Ihrer Cloud Data Fusion-Instanz und klicken Sie in der Spalte Aktion auf den Link Instanz ansehen. Dadurch wird die Cloud Data Fusion-UI in einem neuen Browsertab geöffnet.

  3. Verwenden Sie die verschiedenen Seiten in der Web-UI von Cloud Data Fusion, um Pipelines visuell zu entwerfen und Metadaten zu verwalten.

Befehlszeilentools verwenden

Alternativ zur Web-UI können Sie Befehlszeilentools verwenden, um Cloud Data Fusion-Instanzen und -Pipelines zu erstellen und zu verwalten.

  • Die REST-Referenz beschreibt die API zum Erstellen und Verwalten Ihrer Cloud Data Fusion-Instanzen in Google Cloud.

  • In der CDAP-Referenz wird die REST API zum Erstellen und Verwalten von Pipelines und Datasets beschrieben.

Wichtige Konzepte

In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt. Einige Abschnitte enthalten Links zur CDAP-Dokumentation. Dort finden Sie weitere und detailliertere Informationen zu den einzelnen Konzepten.

Cloud Data Fusion-Instanz

Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Erstellen Sie zuerst eine Cloud Data Fusion-Instanz über die Google Cloud Console.

Sie können mehrere Instanzen in einem einzelnen Google Cloud Console-Projekt erstellen und die Google Cloud-Region angeben, in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.

Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.

Jede Cloud Data Fusion-Instanz enthält eine einzigartige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.

Ausführungsumgebung

Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines. Dies erfolgt sowohl, wenn Sie Pipelines manuell ausführen als auch, wenn Pipelines anhand eines Zeitplans oder eines auf dem Pipelinestatus basierenden Triggers ausgeführt werden. Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung. In dieser Umgebung können Pipelines als MapReduce-, Spark- oder Spark-Streaming-Programme ausgeführt werden. Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit MapReduce oder Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.

Wenn Sie Ihre Dataproc-Cluster mithilfe von Technologien wie Terraform in kontrollierten Umgebungen verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Cloud Dataproc-Clustern ausführen.

Autoscaling

Sie können die vordefinierte Autoscaling-Richtlinie von Cloud Data Fusion oder Ihre eigene Richtlinie verwenden, um die Verwaltung von Clusterressourcen für die Verarbeitung zu automatisieren.

Informationen zum Erstellen einer eigenen Richtlinie zum Erhöhen von Cluster-Workern, um die Arbeitslastanforderungen zu erfüllen, finden Sie unter Autoscaling von Clustern.

Informationen zur Verwendung der vordefinierten Autoscaling-Richtlinie für Pipelines, die in Cloud Data Fusion 6.6 und höher ausgeführt werden, finden Sie unter Wann sollte Autoscaling verwendet werden?.

Pipeline

Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden. Mit Pipelines können Sie komplexe Workflows zur Datenverarbeitung erstellen, mit denen sich Probleme bei der Datenaufnahme, -integration und -migration lösen lassen. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.

Pipelines ermöglichen Ihnen, Ihre Workflows zur Datenverarbeitung mithilfe des logischen Ablaufs auszudrücken, während Cloud Data Fusion alle Funktionen bereitstellt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind. Der Cloud Data Fusion-Planer wandelt den logischen Ablauf mithilfe von Apache Spark und Apache Hadoop MapReduce auf Dataproc in parallele Berechnungen um.

Pipelineknoten

Auf der Seite Studio der Cloud Data Fusion-UI werden Pipelines als eine Reihe von Knoten dargestellt. Sie sind in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet und formen einen Datenstrom in eine Richtung. Knoten sind die verschiedenen Aktionen, die Sie mit Ihren Pipelines ausführen können, z. B. Lesen aus Quellen, Ausführen von Datentransformationen und Schreiben von Ausgabe in Senken. Durch die Kombination von Quellen, Transformationen, Senken und andere Knoten können Sie Datenpipelines in der UI von Cloud Data Fusion entwickeln.

Durch den Zugriff auf Logs und Messwerte bieten Pipelines Administratoren eine einfache Möglichkeit, ihre Datenverarbeitungs-Workflows ohne benutzerdefinierte Tools zu operationalisieren.

Weitere Informationen zu Pipelines finden sich auf der Seite der CDAP-Dokumentation.

Replikationsjob

Mit der Replikation können Sie Ihre Daten kontinuierlich und in Echtzeit aus operativen Datenspeichern wie SQL Server und MySQL in BigQuery replizieren.

Weitere Informationen finden Sie auf der Seite Replikationsjob.

Trigger auslösen

Sie können einen Trigger für eine Datenpipeline (die vorgelagerte Pipeline) erstellen, damit sie nach Abschluss einer oder mehrerer verschiedener Pipelines (nachgelagerte Pipelines) ausgeführt wird. Sie wählen, wann die nachgelagerte Pipeline ausgeführt wird – bei Erfolg, Fehler, Stopp oder einer beliebigen Kombination der vorgelagerten Pipeline.

Trigger eignen sich für Folgendes:

  • Bereinigen Ihrer Daten und für mehrere nachgelagerte Pipelines zur Verwendung zur Verfügung stellen.
  • Informationen wie Laufzeitargumente und Plug-in-Konfigurationen zwischen Pipelines freigeben. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
  • Sie haben eine Reihe dynamischer Pipelines, die im Gegensatz zu einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss, anhand der Daten von Stunde/Tag/Woche/Monat ausgeführt werden können.

Plug-in

Plug-inssind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können. Cloud Data Fusion stellt Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen und Post-Ausführungs-Aktionen als Plug-ins bereit.

Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion Web-UI.

In der folgenden Tabelle werden die verschiedenen Plug-in-Kategorien beschrieben, die in Cloud Data Fusion verfügbar sind.

Kategorie Beschreibung
Quellen Quellen sind Connectors zu Datenbanken, Dateien oder Echtzeitstreams, aus denen Sie Daten erhalten. Damit können Sie Daten über eine einfache UI aufnehmen und brauchen keine untergeordneten Verbindungen zu programmieren.
Transformationen Mit Transformationen können Sie Daten bearbeiten, nachdem sie aufgenommen wurden. Beispiel: Sie können Datensätze klonen, JSON formatieren und mit dem JavaScript-Plug-in sogar benutzerdefinierte Transformationen erstellen.
Analysen Plug-ins für Analysen werden für Aggregationen genutzt, um beispielsweise Daten aus verschiedenen Quellen zu gruppieren und zusammenzuführen. Außerdem werden damit Analysen und Vorgänge für maschinelles Lernen durchgeführt. Cloud Data Fusion bietet integrierte Plug-ins für verschiedene derartige Anwendungsfälle.
Aktionen Plug-ins für Aktionen definieren benutzerdefinierte Aktionen, die während eines Workflows geplant sind, aber keine direkten Änderungen an den Daten im Workflow vornehmen. Mit der angepassten Aktion "Datenbank" können Sie beispielsweise einen beliebigen Datenbankbefehl am Ende einer Pipeline ausführen. Alternativ können Sie eine Aktion auslösen, um Dateien in Cloud Storage zu verschieben.
Senken Daten müssen in eine Senke geschrieben werden. Cloud Data Fusion enthält diverse Senken wie Cloud Storage, BigQuery, Cloud Spanner, relationale Datenbanken, Dateisysteme und Mainframes.
Fehlererfassung Wenn Knoten auf Nullwerte, logische Fehler oder andere Fehlerquellen stoßen, können Sie ein Fehlererfassungs-Plug-in verwenden, um Fehler zu abzufangen. Sie können dieses Plug-in mit der Ausgabe eines beliebigen Transformations- oder Analyse-Plug-ins verbinden und es werden Fehler abgefangen, die einer von Ihnen definierten Bedingung entsprechen. Diese Fehler können dann in einem gesonderten Ablauf zur Fehlerverarbeitung in einer Pipeline verarbeitet werden.
Benachrichtigungs-Publisher Mit den Benachrichtigungs-Publisher-Plug-ins können Sie Benachrichtigungen veröffentlichen, wenn ungewöhnliche Ereignisse auftreten. Nachgelagerte Prozesse können diese Benachrichtigungen dann abonnieren, um individuelle Verarbeitungen auszulösen.
Bedingungen Pipelines bieten Ablaufsteuerung-Plug-ins in Form von Bedingungen. Mit bedingten Plug-ins können Sie Ihre Pipeline in zwei separate Pfade verzweigen, je nachdem, ob das angegebene Bedingungsprädikat als wahr oder falsch ausgewertet wird.

Wenn Sie ein nicht bereitgestelltes Plug-in benötigen, können Sie selbst ein benutzerdefiniertes Plug-in entwickeln.

WARNUNG: Die Installation eines nicht vertrauenswürdigen Plug-ins wird nicht empfohlen, da dies ein Sicherheitsrisiko darstellen kann.

Berechnungsprofil

Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Ein Profil enthält alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind. Profile können den Typ des Cloudanbieters (z. B. Google Cloud), den für den Cloudanbieter zu verwendenden Dienst (z. B. Dataproc), Anmeldedaten, Ressourcen (Speicher und CPU), Image, Mindest- und Höchstwerte für Knoten und andere Werte enthalten.

Profile werden anhand ihres Namens identifiziert und müssen einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.

Weitere Informationen zu Profilen finden Sie auf der CDAP-Dokumentationssite.

Features

Kategorie Features
Entwicklung
  • Grafischer Pipeline-Designer
  • Mehr als 100 Plug-ins – Connectors, Transformationen und Aktionen
  • Codefreie visuelle Transformationen
  • Mehr als 1.000 integrierte Transformationen
  • Datenqualitätsbibliotheken
  • Entwickler-SDK
Test
  • Visuelle Fehlerbehebung bei Pipelines
  • Testframework
Ausführung
  • Cloud Dataproc – Batch (Apache Spark, Apache Hadoop MapReduce) und Echtzeit (Spark Streaming)
  • Ablaufsteuerung und Datenflüsse in Pipelines
Operations-Suite
  • REST API
  • Zeitpläne und Trigger
  • Monitoring-Dashboards
Metadaten integrierter Datasets
  • Automatische Erfassung technischer und operativer Metadaten
  • Anmerkungen zu Geschäftsmetadaten
  • Datasets nach Suchbegriffen und Schemata durchsuchen
  • Herkunft auf Dataset- und Feldebene für Rückverfolgbarkeit
Erweiterbarkeit
  • Benutzerdefinierte Plug-ins
  • Konfigurierbare Plug-in-Widgets für die UI
  • Benutzerdefinierte Bereitsteller
  • Benutzerdefinierte Berechnungsprofile
Wiederverwendung
  • Pipeline- und Plug-in-Vorlagen
  • Laufzeitargumente und -einstellungen
  • Hub zum Verteilen wiederverwendbarer Plug-ins, Pipelines und Lösungen
Google Cloud Integrationen
  • GKE – Instanz-Deployment
  • Cloud Dataproc – Pipelineausführung (Batch und Echtzeit)
  • Cloud KMS – Sichere Datenspeicherung
  • Cloud SQL und Cloud Storage – Metadatenspeicherung von Entitäten und Artefakten
  • Nichtflüchtiger Speicher – Speicher für Logs und Messwerte
  • Google Cloud Console – Verwaltung des Instanzlebenszyklus
  • Google Cloud Operations-Suite (nur Audit-Logs)
Connector (Google Cloud)
  • Cloud Storage
  • BigQuery
  • Cloud SQL
  • Pub/Sub
  • Spanner
  • Bigtable
  • Datastore
Connector (nicht Google Cloud)
  • Öffentliche Clouddienste
  • Dateisysteme
  • Relationale Datenbanken
  • NoSQL-Speicher
  • Mainframes und andere Legacy-Systeme
Transformationen
  • Codefreie Transformationen zum Bereinigen, Mischen, Harmonisieren und Zuordnen
  • Interaktive Transformationen mit Feedback
  • Codebasierte Transformationen (im Browser) – Scala (Apache Spark), Python und JavaScript
  • Vorhandene Spark- und MapReduce-Jobs
Analyse
  • Zusammenfassungen
  • Joins
  • Gruppieren nach

Weitere Informationen