Einführung in Cloud Data Fusion: Studio

Auf dieser Seite wird Cloud Data Fusion vorgestellt. Studio ist ein visuelles Benutzeroberfläche zum Erstellen von Datenpipelines aus einer Bibliothek vordefinierter Plug-ins und eine Schnittstelle, auf der Sie Pipelines konfigurieren, ausführen und verwalten können. Das Erstellen einer Pipeline in Studio erfolgt in der Regel so:

  1. Stellen Sie eine Verbindung zu einer lokalen oder Cloud-Datenquelle her.
  2. Daten vorbereiten und transformieren
  3. Stellen Sie eine Verbindung zum Ziel her.
  4. Testen Sie Ihre Pipeline.
  5. Pipeline ausführen.
  6. Pipelines planen und auslösen.

Nachdem Sie die Pipeline entworfen und ausgeführt haben, können Sie sie auf der Seite Pipeline Studio in Cloud Data Fusion verwalten:

  • Pipelines können wiederverwendet werden, indem sie mit Einstellungen und Laufzeitargumenten parametrisiert werden.
  • Sie können die Pipelineausführung verwalten, indem Sie Compute-Profile anpassen, Ressourcen verwalten und die Pipelineleistung optimieren.
  • Verwalten Sie den Pipeline-Lebenszyklus, indem Sie Pipelines bearbeiten.
  • Pipeline-Versionsverwaltung mit Git-Integration verwalten

Aufrufabfolge in Cloud Data Fusion Studio

Hinweis

Cloud Data Fusion: Studio – Übersicht

Studio enthält die folgenden Komponenten.

Verwaltung

Mit Cloud Data Fusion haben Sie mehrere Namespaces in jeder Instanz. In Studio können Administratoren alle Namespaces zentral oder jeden Namespace einzeln.

Studio bietet die folgenden Steuerelemente für Administratoren:

Systemverwaltung
Mit dem Modul System Admin in Studio können Sie neue Namespaces und die zentralen Konfigurationen für Computing-Profile auf Systemebene definieren, die für jeden Namespace in dieser Instanz gelten. Weitere Informationen Siehe Studio-Verwaltung verwalten.
Namespace-Verwaltung
Mit dem Modul Namespace Admin in Studio können Sie die Konfigurationen für den jeweiligen Namespace. Für jeden Namespace können Sie Compute-Profile, Laufzeiteinstellungen, Treiber, Dienstkonten und Git-Konfigurationen definieren. Weitere Informationen finden Sie unter Studio-Verwaltung verwalten.

Pipeline Design Studio

Pipelines werden in der Cloud Data Fusion-Weboberfläche im Pipeline Design Studio entworfen und ausgeführt. Datenpipelines entwerfen und ausführen umfasst die folgenden Schritte:

  • Mit einer Quelle verbinden: Cloud Data Fusion ermöglicht Verbindungen zum lokalen und Cloud-Datenquellen. Die Studio-Benutzeroberfläche enthält standardmäßige System-Plug-ins, die in Studio vorinstalliert sind. Du kannst Folgendes herunterladen: zusätzliche Plug-ins aus einem Plug-in-Repository, das als Hub bezeichnet wird. Weitere Informationen finden Sie in der Plug-in-Übersicht.
  • Datenvorbereitung: Mit Cloud Data Fusion können Sie Ihre mit dem leistungsstarken Plug-in Wrangler zur Datenvorbereitung. Mit Wrangler können Sie eine kleine Stichprobe Ihrer Daten an einem Ort ansehen, untersuchen und transformieren, bevor Sie die Logik in Studio auf den gesamten Datensatz anwenden. So können Sie Transformationen schnell anwenden, um zu verstehen, wie sie auf das gesamte Dataset. Sie können mehrere Transformationen erstellen und einem Rezept hinzufügen. Weitere Informationen finden Sie in der Wrangler – Übersicht
  • Transformieren: Transformations-Plug-ins ändern Daten, nachdem sie aus einem Quelle, z. B. einen Eintrag klonen oder das Dateiformat in JSON oder verwenden Sie das JavaScript-Plug-in, um eine benutzerdefinierte Transformation zu erstellen. Weitere Informationen finden Sie unter Plug-ins – Übersicht.
  • Verbindung zu einem Ziel herstellen: Nachdem Sie die Daten vorbereitet und Transformationen angewendet haben, können Sie eine Verbindung zum Ziel herstellen, an das Sie die Daten laden möchten. Cloud Data Fusion unterstützt Verbindungen zu mehreren Zielen. Weitere Informationen finden Sie unter Plug-ins.
  • Vorschau: Beheben Sie nach dem Entwerfen der Pipeline Probleme, bevor Sie Wenn Sie eine Pipeline bereitstellen und ausführen, führen Sie einen Vorschaujob aus. Wenn Sie können Sie sie im Entwurf-Modus beheben. In Studio werden die ersten 100 Zeilen des Quelldatensatzes verwendet, um die Vorschau zu generieren. In Studio werden der Status und die Dauer des Vorschaujobs angezeigt. Sie können den Job jederzeit anhalten. Sie können die Logereignisse auch während der Ausführung des Vorschaujobs überwachen. Weitere Informationen Weitere Informationen
  • Pipelinekonfigurationen verwalten: Nachdem Sie sich eine Vorschau der Daten angesehen haben, können Sie die Pipeline bereitstellen und die folgenden Pipelinekonfigurationen verwalten:

    • Compute-Konfiguration: Sie können das ausgeführte Compute-Profil ändern. die Pipeline ausführen möchten, z. B. für eine angepassten Dataproc-Clusters anstelle des Standard- Dataproc-Cluster
    • Pipelinekonfiguration: Für jede Pipeline können Sie diese aktivieren oder deaktivieren. wie z. B. Timing-Messwerte. Die Instrumentierung ist standardmäßig aktiviert.
    • Engine-Konfiguration: Spark ist die Standardausführungs-Engine. Sie können benutzerdefinierte Parameter für Spark anpassen.
    • Ressourcen: Sie können den Arbeitsspeicher und die Anzahl der CPUs für den Spark-Treiber und ‑Executor angeben. Der Treiber orchestriert den Spark-Job. Der Executor übernimmt die Datenverarbeitung in Spark.
    • Pipeline-Benachrichtigung: Sie können die Pipeline so konfigurieren, dass nach Abschluss der Pipelineausführung Benachrichtigungen gesendet und Aufgaben zur Nachbearbeitung gestartet werden. Sie erstellen Pipelinebenachrichtigungen, wenn Sie die Pipeline entwerfen. Nach der Bereitstellung sehen Sie sich die Benachrichtigungen an. Wenn Sie die Benachrichtigungseinstellungen ändern möchten, können Sie die Pipeline bearbeiten.
    • Transformations-Push-down: Sie können den Transformations-Push-down aktivieren, wenn eine Pipeline bestimmte Transformationen in BigQuery ausführen soll.

    Weitere Informationen finden Sie unter Pipelinekonfigurationen verwalten.

  • Pipelines mit Makros, Einstellungen und Laufzeitargumenten wiederverwenden: Mit Cloud Data Fusion können Sie Datenpipelines wiederverwenden. Wiederverwendbar können Sie eine einzelne Pipeline nutzen, Integrationsmuster für eine Vielzahl von Anwendungsfällen und Datasets. Wiederverwendbare Pipelines bieten eine bessere Verwaltungsmöglichkeit. Mit ihnen können Sie die meisten Konfigurationseinstellungen einer Pipeline bei der Ausführung festlegen, anstatt sie beim Entwerfen zu hartcodieren. In Pipeline Design Studio können Sie Makros verwenden, um Plug-in-Konfigurationen Variablen hinzuzufügen, damit Sie die Variablensubstitutionen zur Laufzeit angeben können. Weitere Informationen finden Sie unter Makros, Einstellungen und Laufzeitargumente verwalten.

  • Ausführen: Nachdem Sie die Pipelinekonfigurationen überprüft haben, können Sie die Pipelineausführung starten. Sie können die Statusänderung während der Phasen der Pipelineausführung sehen, z. B. Bereitstellung, Start, Ausführung und Erfolg.

  • Planen und orchestrieren: Batch-Datenpipelines können für die Ausführung auf Zeitplan und Häufigkeit festgelegt. Nachdem Sie eine Pipeline erstellt und bereitgestellt haben, können Sie einen Zeitplan erstellen. Im Pipeline Design Studio können Sie Pipelines orchestrieren, indem Sie einen Trigger für eine Batch-Datenpipeline erstellen, damit sie ausgeführt wird, wenn eine oder mehrere Pipelineausführungen abgeschlossen sind. Diese werden als nachgelagerte und vorgelagerte Pipelines. Sie erstellen einen Trigger für die nachgelagerte Pipeline, damit sie nach Abschluss einer oder mehrerer vorgelagerter Pipelines ausgeführt wird.

    Empfohlen: Sie können auch Composer zur Orchestrierung von Pipelines verwenden in Cloud Data Fusion. Weitere Informationen finden Sie unter Pipelines planen und Pipelines orchestrieren

  • Pipelines bearbeiten: Mit Cloud Data Fusion können Sie bereitgestellte zu erstellen. Wenn Sie eine bereitgestellte Pipeline bearbeiten, wird eine neue Version von Namen der Pipeline an und markiert sie als neueste Version. Dieses können Sie Pipelines iterativ entwickeln, anstatt Pipelines zu duplizieren, wodurch eine neue Pipeline mit einem anderen Namen erstellt wird. Weitere Informationen Siehe Pipelines bearbeiten.

  • Versionsverwaltung: Mit Cloud Data Fusion können Sie Pipelines zwischen Entwicklung und Produktion besser verwalten, da die Versionen der Pipelines mit GitHub verwaltet werden.

  • Logging und Monitoring: Wenn Sie Pipeline-Messwerte und ‑Logs überwachen möchten, sollten Sie den Stackdriver-Logging-Dienst aktivieren, um Cloud Logging mit Ihrer Cloud Data Fusion-Pipeline zu verwenden.

Nächste Schritte