Was ist Cloud Data Fusion?

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst für Unternehmen, die schnell Datenpipelines erstellen und verwalten möchten.

Mit der Cloud Data Fusion-Web-UI können Sie skalierbare Datenintegrationslösungen zum Bereinigen, Vorbereiten, Vereinigen, Übertragen und Transformieren von Daten erstellen, ohne die Infrastruktur verwalten zu müssen.

Cloud Data Fusion basiert auf dem Open-Source-Projekt CDAP. Auf dieser Seite finden Sie Links zur CDAP-Dokumentationsseite. Dort finden Sie ausführlichere Informationen.

Interfaces

Um Cloud Data Fusion zu nutzen, können Sie die visuelle Web-UI oder Befehlszeilentools verwenden.

Verwendung der codefreien Web-UI

Bei Verwendung von Cloud Data Fusion verwenden Sie sowohl die Cloud Console als auch die separate Web-UI von Cloud Data Fusion.

  • In der Google Cloud Console erstellen Sie ein Google Cloud-Projekt, erstellen und löschen Instanzen von Cloud Data Fusion (eindeutige Bereitstellungen von Cloud Data Fusion) und rufen Details zu den Instanzen von Cloud Data Fusion auf.

  • In der Benutzeroberfläche von Cloud Data Fusion verwenden Sie die verschiedenen Seiten wie Pipeline Studio oder Wrangler, um Datenpipelines visuell zu gestalten und Cloud Data Fusion zu nutzen. nutzt.

Auf übergeordneter Ebene führen Sie diese Schritte aus:

  1. Erstellen Sie eine Cloud Data Fusion-Instanz in der Google Cloud Console.

  2. Suchen Sie nach Ihrer Cloud Data Fusion-Instanz in der Cloud Console auf der Seite "Instanzen" und klicken Sie in der Spalte Aktion auf den Link Instanz ansehen. auf Ihrem Mobilgerät. Dadurch wird die Cloud Data Fusion-UI in einem neuen Browsertab geöffnet.

  3. Verwenden Sie die verschiedenen Seiten in der Web-UI von Cloud Data Fusion, um Pipelines visuell zu entwerfen und Metadaten zu verwalten.

Befehlszeilentools verwenden

Alternativ zur Web-UI können Sie Befehlszeilentools verwenden, um Cloud Data Fusion-Instanzen und -Pipelines zu erstellen und zu verwalten.

  • Die REST-Referenz beschreibt die API zum Erstellen und Verwalten Ihrer Cloud Data Fusion-Instanzen in Google Cloud.

  • In der CDAP-Referenz wird die REST API zum Erstellen und Verwalten von Pipelines und Datasets beschrieben.

Wichtige Konzepte

In diesem Abschnitt werden einige der wichtigsten Konzepte von Cloud Data Fusion vorgestellt. Einige Abschnitte enthalten Links zur CDAP-Dokumentation. Dort finden Sie weitere und detailliertere Informationen zu den einzelnen Konzepten.

Cloud Data Fusion-Instanz

Eine Cloud Data Fusion-Instanz ist eine einmalige Bereitstellung von Cloud Data Fusion. Für den Einstieg in Cloud Data Fusion erstellen Sie per Cloud Console eine Cloud Data Fusion-Instanz.

Sie können mehrere Instanzen in einem Cloud Console-Projekt erstellen und die Google Cloud-Region angeben, in der Ihre Cloud Data Fusion-Instanzen erstellt werden sollen.

Je nach Anforderungen und Kostenbeschränkungen können Sie eine Developer-, Basic- oder Enterprise-Instanz erstellen.

Jede Cloud Data Fusion-Instanz enthält eine einzigartige, unabhängige Cloud Data Fusion-Bereitstellung, die eine Reihe von Diensten für die Verwaltung des Pipelinelebenszyklus, die Orchestrierung, Koordinierung und die Metadatenverwaltung enthält. Diese Dienste werden mit lang laufenden Ressourcen in einem Mandantenprojekt ausgeführt.

Ausführungsumgebung

Cloud Data Fusion erstellt temporäre Ausführungsumgebungen zum Ausführen von Pipelines. Dies erfolgt sowohl, wenn Sie Pipelines manuell ausführen als auch, wenn Pipelines anhand eines Zeitplans oder eines auf dem Pipelinestatus basierenden Triggers ausgeführt werden. Cloud Data Fusion unterstützt Dataproc als Ausführungsumgebung. In dieser Umgebung können Pipelines als MapReduce-, Spark- oder Spark-Streaming-Programme ausgeführt werden. Cloud Data Fusion stellt zu Beginn einer Pipelineausführung einen sitzungsspezifischen Dataproc-Cluster in Ihrem Kundenprojekt bereit, führt die Pipeline mit MapReduce oder Spark im Cluster aus und löscht den Cluster, nachdem die Ausführung der Pipeline beendet wurde.

Wenn Sie Ihre Dataproc-Cluster mithilfe von Technologien wie Terraform in kontrollierten Umgebungen verwalten, können Sie Cloud Data Fusion auch so konfigurieren, dass keine Cluster bereitgestellt werden. In solchen Umgebungen können Sie Pipelines in vorhandenen Cloud Dataproc-Clustern ausführen.

Autoscaling

Informationen zu Konfiguration und Verwendung von Dataproc-Autoscaling für die automatische und dynamische Anpassung von Clustern an ihre Arbeitslastanforderungen finden Sie in der Anleitung für Autoscaling-Cluster.

Empfohlen: Verwenden Sie Autoscaling-Richtlinien, um die Clustergröße zu erhöhen, nicht die Größe zu verringern. Bei der Verringerung der Clustergröße beim Autoscaling werden Knoten mit Zwischendaten entfernt. Dies kann dazu führen, dass Ihre Pipelines langsam ausgeführt werden oder fehlschlagen.

Pipeline

Mit einer Pipeline können Sie Datenflüsse und Steuerungsabläufe visuell entwerfen, um Daten aus verschiedenen lokalen und Cloud-Datenquellen zu extrahieren, zu transformieren, zu mischen, zu aggregieren und zu laden. Durch das Erstellen von Pipelines können Sie komplexe Datenverarbeitungs-Workflows erstellen, mit denen Sie Probleme bei Datenaufnahme, -verknüpfung und -migration lösen können. Sie können Cloud Data Fusion nutzen, um je nach Anforderungen sowohl Batch- als auch Echtzeit-Pipelines zu erstellen.

Pipelines ermöglichen Ihnen, Ihre Workflows zur Datenverarbeitung mithilfe des logischen Ablaufs auszudrücken, während Cloud Data Fusion alle Funktionen bereitstellt, die für die physische Ausführung in einer Ausführungsumgebung erforderlich sind. Der Cloud Data Fusion-Planer wandelt den logischen Ablauf mithilfe von Apache Spark und Apache Hadoop MapReduce auf Dataproc in parallele Berechnungen um.

Pipelineknoten

Auf der Seite Studio der Cloud Data Fusion-Benutzeroberfläche werden Pipelines als eine Reihe von Knoten dargestellt, die in einem gerichteten azyklischen Graphen (Directed Acyclic Graph, DAG) angeordnet sind. eine Einbahnstraße. Knoten stehen für verschiedene Aktionen, die mit Ihren Pipelines möglich sind, z. B. das Lesen von Quellen, Datentransformationen und das Schreiben von Ausgaben in Senken. Sie können Datenpipelines in der Cloud Data Fusion-UI entwickeln, indem Sie Quellen, Transformationen, Senken und andere Knoten miteinander verbinden.

Darüber hinaus bieten Pipelines durch die Bereitstellung des Zugriffs auf Logs und Messwerte eine einfache Möglichkeit für Administratoren, ihre Datenverarbeitungs-Workflows zu operationalisieren, ohne dass kundenspezifische Tools erforderlich sind.

Weitere Informationen zu Pipelines finden sich auf der Seite der CDAP-Dokumentation.

Replikationsjob

Mit der Replikation können Sie Ihre Daten kontinuierlich und in Echtzeit aus operativen Datenspeichern wie SQL Server und MySQL in BigQuery replizieren.

Weitere Informationen finden Sie auf der Seite Replikationsjob.

Auslöser

Sie können einen Trigger für eine Datenpipeline (vorgelagerte Pipeline) erstellen, damit sie nach Abschluss einer oder mehrerer verschiedener Pipelines (nachgelagerte Pipelines) ausgeführt wird. Sie legen fest, wann die nachgelagerte Pipeline ausgeführt wird – nach Erfolg, Misserfolg, Stopp oder einer beliebigen Kombination der Ausführung der vorgelagerten Pipeline.

Trigger sind für Folgendes hilfreich:

  • Einmalige Bereinigung der Daten und Bereitstellung für mehrere nachgelagerte Pipelines zur Nutzung.
  • Freigabe von Informationen wie Laufzeitargumente und Plug-in-Konfigurationen für die Pipelines. Dies wird als Nutzlastkonfiguration bezeichnet.
  • Eine Reihe von dynamischen Pipelines, die mit den Daten der Stunden/Tage/Wochen/Monate ausgeführt werden können, im Gegensatz zu einer statischen Pipeline, die bei jeder Ausführung aktualisiert werden muss.

Plug-in

Plug-inssind anpassbare Module, mit denen die Funktionen von Cloud Data Fusion erweitert werden können. Cloud Data Fusion stellt Quellen, Transformationen, Aggregate, Senken, Optionen zur Fehlererfassung und Veröffentlichung von Benachrichtigungen, Aktionen und Post-Ausführungs-Aktionen als Plug-ins bereit.

Plug-ins werden manchmal als Knoten bezeichnet, normalerweise im Kontext der Cloud Data Fusion Web-UI.

In der folgenden Tabelle werden die verschiedenen Plug-in-Kategorien beschrieben, die in Cloud Data Fusion verfügbar sind.

Kategorie Beschreibung
Quellen Quellen sind Connectors zu Datenbanken, Dateien oder Echtzeitstreams, aus denen Sie Daten erhalten. Damit können Sie Daten über eine einfache UI aufnehmen und brauchen keine untergeordneten Verbindungen zu programmieren.
Transformationen Mit Transformationen können Sie Daten nach deren Aufnahme bearbeiten. Beispiel: Sie können Datensätze klonen, JSON formatieren und mit dem JavaScript-Plug-in sogar benutzerdefinierte Transformationen erstellen.
Analyse Plug-ins für Analysen werden für Aggregationen genutzt, um beispielsweise Daten aus verschiedenen Quellen zu gruppieren und zusammenzuführen. Außerdem werden damit Analysen und Vorgänge für maschinelles Lernen durchgeführt. Cloud Data Fusion bietet integrierte Plug-ins für eine Vielzahl solcher Anwendungsfälle.
Aktionen Plug-ins für Aktionen definieren benutzerdefinierte Aktionen, die während eines Workflows geplant sind, aber keine direkten Änderungen an den Daten im Workflow vornehmen. Mit der angepassten Aktion "Datenbank" können Sie beispielsweise einen beliebigen Datenbankbefehl am Ende einer Pipeline ausführen. Alternativ können Sie eine Aktion auslösen, um Dateien in Cloud Storage zu verschieben.
Senken Daten müssen in eine Senke geschrieben werden. Cloud Data Fusion enthält diverse Senken wie Cloud Storage, BigQuery, Cloud Spanner, relationale Datenbanken, Dateisysteme und Mainframes.
Fehlererfassung Wenn Knoten auf Nullwerte, logische Fehler oder andere Fehlerquellen stoßen, können Sie ein Fehlererfassungs-Plug-in verwenden, um Fehler zu abzufangen. Sie können dieses Plug-in mit der Ausgabe eines beliebigen Transformations- oder Analyse-Plug-ins verbinden und es werden Fehler abgefangen, die einer von Ihnen definierten Bedingung entsprechen. Diese Fehler können dann in einem gesonderten Ablauf zur Fehlerverarbeitung in einer Pipeline verarbeitet werden.
Benachrichtigungs-Publisher Mit Plug-ins für Benachrichtigungsveröffentlichung können Sie Benachrichtigungen veröffentlichen, wenn ungewöhnliche Ereignisse auftreten. Nachgelagerte Prozesse können diese Benachrichtigungen dann abonnieren, um individuelle Verarbeitungen auszulösen.
Bedingungen Pipelines bieten Ablaufsteuerung-Plug-ins in Form von Bedingungen. Mithilfe dieser Plug-ins können Sie eine Pipeline in zwei separate Pfade teilen. Die Bedingung basiert hier auf der Prädikatenlogik wahr/falsch.

Wenn ein Plug-in nicht benötigt wird, können Sie selbst ein benutzerdefiniertes Plug-in entwickeln.

WARNUNG: Die Installation eines nicht vertrauenswürdigen Plug-ins wird nicht empfohlen, da dies ein Sicherheitsrisiko darstellen kann.

Berechnungsprofil

Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Profile enthalten alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung der Pipeline erforderlich sind. Profile können den Typ des Cloudanbieters (z. B. Google Cloud), den für den Cloudanbieter zu verwendenden Dienst (z. B. Dataproc), Anmeldedaten, Ressourcen (Speicher und CPU), Image, Mindest- und Höchstwerte für Knoten und andere Werte enthalten.

Profile werden anhand ihres Namens identifiziert und müssen einem Bereitsteller und der zugehörigen Konfiguration zugewiesen werden. Ein Profil kann entweder auf Cloud Data Fusion-Instanzebene oder auf Namespace-Ebene vorhanden sein.

Weitere Informationen zu Profilen finden Sie auf der CDAP-Dokumentationssite.

Features

Kategorie Features
Entwicklung
  • Grafischer Pipeline-Designer
  • Mehr als 100 Plug-ins – Connectors, Transformationen und Aktionen
  • Codefreie visuelle Transformationen
  • Mehr als 1.000 integrierte Transformationen
  • Datenqualitätsbibliotheken
  • Entwickler-SDK
Test
  • Visuelle Fehlerbehebung bei Pipelines
  • Testframework
Ausführung
  • Cloud Dataproc – Batch (Apache Spark, Apache Hadoop MapReduce) und Echtzeit (Spark Streaming)
  • Ablaufsteuerung und Datenflüsse in Pipelines
Vorgänge
  • REST API
  • Zeitpläne und Trigger
  • Monitoring-Dashboards
Metadaten integrierter Datasets
  • Automatische Erfassung technischer und operativer Metadaten
  • Anmerkungen zu Geschäftsmetadaten
  • Datasets nach Suchbegriffen und Schemata durchsuchen
  • Herkunft auf Dataset- und Feldebene für Rückverfolgbarkeit
Erweiterbarkeit
  • Benutzerdefinierte Plug-ins
  • Konfigurierbare Plug-in-Widgets für die UI
  • Benutzerdefinierte Bereitsteller
  • Benutzerdefinierte Berechnungsprofile
Wiederverwendung
  • Pipeline- und Plug-in-Vorlagen
  • Laufzeitargumente und -einstellungen
  • Hub zum Verteilen wiederverwendbarer Plug-ins, Pipelines und Lösungen
Google Cloud Integrationen
  • GKE – Instanz-Deployment
  • Cloud Dataproc – Pipelineausführung (Batch und Echtzeit)
  • Cloud KMS – Sichere Datenspeicherung
  • Cloud SQL und Cloud Storage – Metadatenspeicherung von Entitäten und Artefakten
  • Nichtflüchtiger Speicher – Speicher für Logs und Messwerte
  • GCP Console – Verwaltung von Instanzen über deren Lebenszyklus
  • Google Cloud Operations-Suite (nur Audit-Logs)
Connector (Google Cloud)
  • Cloud Storage
  • BigQuery
  • Cloud SQL
  • Pub/Sub
  • Spanner
  • Bigtable
  • Datastore
Connector (nicht Google Cloud)
  • Öffentliche Clouddienste
  • Dateisysteme
  • Relationale Datenbanken
  • NoSQL-Speicher
  • Mainframes und andere Legacy-Systeme
Transformationen
  • Codefreie Transformationen zum Bereinigen, Mischen, Harmonisieren und Zuordnen
  • Interaktive Transformationen mit Feedback
  • Codebasierte Transformationen (im Browser) – Scala (Apache Spark), Python und JavaScript
  • Vorhandene Spark- und MapReduce-Jobs
Analyse
  • Zusammenfassungen
  • Joins
  • Gruppieren nach

Nächste Schritte