Was ist Cloud Data Fusion?

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen, die schnell Datenpipelines erstellen und verwalten möchten.

Mit der Cloud Data Fusion-Web-UI können Sie skalierbare Datenintegrationslösungen zum Bereinigen, Vorbereiten, Vereinigen, Übertragen und Transformieren von Daten erstellen, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP. Auf dieser Seite finden Sie Links zur CDAP-Dokumentationsseite. Dort finden Sie ausführlichere Informationen.

Interfaces

Um Cloud Data Fusion zu nutzen, können Sie die visuelle Web-UI oder Befehlszeilentools verwenden.

Verwendung der codefreien Web-UI

Wenn Sie Cloud Data Fusion verwenden, verwenden Sie sowohl die Cloud Console als auch die separate Cloud Data Fusion-Web-UI.

  • In der Google Cloud Console erstellen Sie ein Google Cloud-Projekt, erstellen und löschen Instanzen von Cloud Data Fusion (eindeutige Bereitstellungen von Cloud Data Fusion) und rufen Details zu den Instanzen von Cloud Data Fusion auf.

  • In der Cloud Data Fusion-Benutzeroberfläche verwenden Sie verschiedene Seiten, wie z. B. Pipeline Studio oder Wrangler, um Datenpipelines visuell zu entwerfen und die Cloud Data Fusion-Funktionalität zu nutzen.

Auf übergeordneter Ebene führen Sie diese Schritte aus:

  1. Erstellen Sie eine Cloud Data Fusion-Instanz in der Google Cloud Console.

  2. Suchen Sie in der Cloud Console auf der Seite „Instanzen“ nach Ihrer Cloud Data Fusion-Instanz und klicken Sie in der Spalte Aktion auf den Link Instanz ansehen. Dadurch wird die Cloud Data Fusion-UI in einem neuen Browsertab geöffnet.

  3. Verwenden Sie die verschiedenen Seiten in der Web-UI von Cloud Data Fusion, um Pipelines visuell zu entwerfen und Metadaten zu verwalten.

Befehlszeilentools verwenden

Alternativ zur Web-UI können Sie Befehlszeilentools verwenden, um Cloud Data Fusion-Instanzen und -Pipelines zu erstellen und zu verwalten.

  • Die REST-Referenz beschreibt die API zum Erstellen und Verwalten Ihrer Cloud Data Fusion-Instanzen in Google Cloud.

  • In der CDAP-Referenz wird die REST API zum Erstellen und Verwalten von Pipelines und Datasets beschrieben.

Wichtige Konzepte

In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt. Einige Abschnitte enthalten Links zur CDAP-Dokumentation. Dort finden Sie weitere und detailliertere Informationen zu den einzelnen Konzepten.

Cloud Data Fusion-Instanz

Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie in der Cloud Console eine Cloud Data Fusion-Instanz.

Sie können mehrere Instanzen in einem einzigen Cloud Console-Projekt erstellen und die Google Cloud-Region angeben, in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.

Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.

Jede Cloud Data Fusion-Instanz enthält eine einzigartige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.

Ausführungsumgebung

Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines. Dies erfolgt sowohl, wenn Sie Pipelines manuell ausführen als auch, wenn Pipelines anhand eines Zeitplans oder eines auf dem Pipelinestatus basierenden Triggers ausgeführt werden. Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung. In dieser Umgebung können Pipelines als MapReduce-, Spark- oder Spark-Streaming-Programme ausgeführt werden. Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit MapReduce oder Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.

Wenn Sie Ihre Dataproc-Cluster mithilfe von Technologien wie Terraform in kontrollierten Umgebungen verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Cloud Dataproc-Clustern ausführen.

Autoscaling

Sie können die vordefinierte Autoscaling-Richtlinie von Cloud Data Fusion oder Ihre eigene Richtlinie verwenden, um die Verwaltung von Clusterressourcen zur Verarbeitung zu automatisieren.

Informationen zum Erstellen eigener Richtlinien zur Erhöhung der Cluster-Worker, um die Arbeitslastanforderungen zu erfüllen, finden Sie unter Autoscaling-Cluster.

Informationen zur Verwendung der vordefinierten Autoscaling-Richtlinie für Pipelines, die in Cloud Data Fusion 6.6 und höher ausgeführt werden, finden Sie unter Verwendung von Autoscaling.

Pipeline

Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden. Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.

Pipelines ermöglichen Ihnen, Ihre Workflows zur Datenverarbeitung mithilfe des logischen Ablaufs auszudrücken, während Cloud Data Fusion alle Funktionen bereitstellt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind. Der Cloud Data Fusion-Planer wandelt den logischen Ablauf mithilfe von Apache Spark und Apache Hadoop MapReduce auf Dataproc in parallele Berechnungen um.

Pipelineknoten

Auf der Seite Studio der Cloud Data Fusion-UI werden Pipelines als eine Reihe von Knoten dargestellt. Sie sind in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet und formen einen Datenstrom in eine Richtung. Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Durch die Kombination von Quellen, Transformationen, Senken und andere Knoten können Sie Datenpipelines in der UI von Cloud Data Fusion entwickeln.

Darüber hinaus bieten Pipelines durch die Bereitstellung des Zugriffs auf Logs und Messwerte eine einfache Möglichkeit für Administratoren, ihre Datenverarbeitungs-Workflows zu operationalisieren, ohne dass kundenspezifische Tools erforderlich sind.

Weitere Informationen zu Pipelines finden sich auf der Seite der CDAP-Dokumentation.

Replikationsjob

Mit der Replikation können Sie Daten kontinuierlich und in Echtzeit aus operativen Datenspeichern wie SQL Server und MySQL in BigQuery replizieren.

Weitere Informationen finden Sie auf der Seite Replikationsjob.

Trigger auslösen

Sie können einen Trigger für eine Datenpipeline (die vorgelagerte Pipeline) erstellen, damit sie nach Abschluss einer oder mehrerer verschiedener Pipelines (nachgelagerte Pipelines) ausgeführt wird. Sie wählen, wann die nachgelagerte Pipeline ausgeführt wird – bei Erfolg, Fehler, Stopp oder einer beliebigen Kombination der vorgelagerten Pipeline.

Trigger eignen sich für Folgendes:

  • Bereinigen Ihrer Daten und für mehrere nachgelagerte Pipelines zur Verwendung zur Verfügung stellen.
  • Informationen wie Laufzeitargumente und Plug-in-Konfigurationen zwischen Pipelines freigeben. Dieser Vorgang wird als Nutzlastkonfiguration bezeichnet.
  • Sie haben eine Reihe dynamischer Pipelines, die mit den Daten von Stunde/Tag/Woche/Monat ausgeführt werden können, im Gegensatz zu einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.

Plug-in

Plug-inssind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können. Cloud Data Fusion stellt Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen und Post-Ausführungs-Aktionen als Plug-ins bereit.

Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion Web-UI.

In der folgenden Tabelle werden die verschiedenen Plug-in-Kategorien beschrieben, die in Cloud Data Fusion verfügbar sind.

Kategorie Beschreibung
Quellen Quellen sind Connectors zu Datenbanken, Dateien oder Echtzeitstreams, aus denen Sie Daten erhalten. Damit können Sie Daten über eine einfache UI aufnehmen und brauchen keine untergeordneten Verbindungen zu programmieren.
Transformationen Mit Transformationen können Sie Daten nach deren Aufnahme bearbeiten. Beispiel: Sie können Datensätze klonen, JSON formatieren und mit dem JavaScript-Plug-in sogar benutzerdefinierte Transformationen erstellen.
Analyse Plug-ins für Analysen werden für Aggregationen genutzt, um beispielsweise Daten aus verschiedenen Quellen zu gruppieren und zusammenzuführen. Außerdem werden damit Analysen und Vorgänge für maschinelles Lernen durchgeführt. Cloud Data Fusion bietet integrierte Plug-ins für eine Vielzahl solcher Anwendungsfälle.
Aktionen Plug-ins für Aktionen definieren benutzerdefinierte Aktionen, die während eines Workflows geplant sind, aber keine direkten Änderungen an den Daten im Workflow vornehmen. Mit der angepassten Aktion "Datenbank" können Sie beispielsweise einen beliebigen Datenbankbefehl am Ende einer Pipeline ausführen. Alternativ können Sie eine Aktion auslösen, um Dateien in Cloud Storage zu verschieben.
Senken Daten müssen in eine Senke geschrieben werden. Cloud Data Fusion enthält diverse Senken wie Cloud Storage, BigQuery, Cloud Spanner, relationale Datenbanken, Dateisysteme und Mainframes.
Fehlererfassung Wenn Knoten auf Nullwerte, logische Fehler oder andere Fehlerquellen stoßen, können Sie ein Fehlererfassungs-Plug-in verwenden, um Fehler zu abzufangen. Sie können dieses Plug-in mit der Ausgabe eines beliebigen Transformations- oder Analyse-Plug-ins verbinden und es werden Fehler abgefangen, die einer von Ihnen definierten Bedingung entsprechen. Diese Fehler können dann in einem gesonderten Ablauf zur Fehlerverarbeitung in einer Pipeline verarbeitet werden.
Benachrichtigungs-Publisher Mit Plug-ins für Benachrichtigungsveröffentlichung können Sie Benachrichtigungen veröffentlichen, wenn ungewöhnliche Ereignisse auftreten. Nachgelagerte Prozesse können diese Benachrichtigungen dann abonnieren, um individuelle Verarbeitungen auszulösen.
Bedingungen Pipelines bieten Ablaufsteuerung-Plug-ins in Form von Bedingungen. Mithilfe dieser Plug-ins können Sie eine Pipeline in zwei separate Pfade teilen. Die Bedingung basiert hier auf der Prädikatenlogik wahr/falsch.

Wenn Sie ein nicht bereitgestelltes Plug-in benötigen, können Sie selbst ein benutzerdefiniertes Plug-in entwickeln.

WARNUNG: Die Installation eines nicht vertrauenswürdigen Plug-ins wird nicht empfohlen, da dies ein Sicherheitsrisiko darstellen kann.

Berechnungsprofil

Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Profile enthalten alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung der Pipeline erforderlich sind. Profile können den Typ des Cloudanbieters (z. B. Google Cloud), den für den Cloudanbieter zu verwendenden Dienst (z. B. Dataproc), Anmeldedaten, Ressourcen (Speicher und CPU), Image, Mindest- und Höchstwerte für Knoten und andere Werte enthalten.

Profile werden anhand ihres Namens identifiziert und müssen einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.

Weitere Informationen zu Profilen finden Sie auf der CDAP-Dokumentationssite.

Features

Kategorie Features
Entwicklung
  • Grafischer Pipeline-Designer
  • Mehr als 100 Plug-ins – Connectors, Transformationen und Aktionen
  • Codefreie visuelle Transformationen
  • Mehr als 1.000 integrierte Transformationen
  • Datenqualitätsbibliotheken
  • Entwickler-SDK
Test
  • Visuelle Fehlerbehebung bei Pipelines
  • Testframework
Ausführung
  • Cloud Dataproc – Batch (Apache Spark, Apache Hadoop MapReduce) und Echtzeit (Spark Streaming)
  • Ablaufsteuerung und Datenflüsse in Pipelines
Vorgänge
  • REST API
  • Zeitpläne und Trigger
  • Monitoring-Dashboards
Metadaten integrierter Datasets
  • Automatische Erfassung technischer und operativer Metadaten
  • Anmerkungen zu Geschäftsmetadaten
  • Datasets nach Suchbegriffen und Schemata durchsuchen
  • Herkunft auf Dataset- und Feldebene für Rückverfolgbarkeit
Erweiterbarkeit
  • Benutzerdefinierte Plug-ins
  • Konfigurierbare Plug-in-Widgets für die UI
  • Benutzerdefinierte Bereitsteller
  • Benutzerdefinierte Berechnungsprofile
Wiederverwendung
  • Pipeline- und Plug-in-Vorlagen
  • Laufzeitargumente und -einstellungen
  • Hub zum Verteilen wiederverwendbarer Plug-ins, Pipelines und Lösungen
Google Cloud Integrationen
  • GKE – Instanz-Deployment
  • Cloud Dataproc – Pipelineausführung (Batch und Echtzeit)
  • Cloud KMS – Sichere Datenspeicherung
  • Cloud SQL und Cloud Storage – Metadatenspeicherung von Entitäten und Artefakten
  • Nichtflüchtiger Speicher – Speicher für Logs und Messwerte
  • Cloud Console – Verwaltung des Instanzlebenszyklus
  • Google Cloud Operations-Suite (nur Audit-Logs)
Connector (Google Cloud)
  • Cloud Storage
  • BigQuery
  • Cloud SQL
  • Pub/Sub
  • Spanner
  • Bigtable
  • Datastore
Connector (nicht Google Cloud)
  • Öffentliche Clouddienste
  • Dateisysteme
  • Relationale Datenbanken
  • NoSQL-Speicher
  • Mainframes und andere Legacy-Systeme
Transformationen
  • Codefreie Transformationen zum Bereinigen, Mischen, Harmonisieren und Zuordnen
  • Interaktive Transformationen mit Feedback
  • Codebasierte Transformationen (im Browser) – Scala (Apache Spark), Python und JavaScript
  • Vorhandene Spark- und MapReduce-Jobs
Analyse
  • Zusammenfassungen
  • Joins
  • Gruppieren nach

Weitere Informationen