Wrangler – Übersicht

Wrangler ist ein visuelles Tool zur Datenvorbereitung in der Cloud Data Fusion Studio-Benutzeroberfläche. Damit können Sie Daten bereinigen und transformieren, bevor Sie sie in ETL-Pipelines (Extract, Transform, Load) verwenden. In Wrangler werden Transformationen an einer Stelle auf eine Stichprobe Ihrer Daten angewendet (Vorschau), bevor die Logik auf den gesamten Datensatz angewendet wird. Anhand dieser Vorschau können Sie Transformationen anwenden und nachvollziehen, wie sich diese auf den gesamten Datensatz auswirken.

Wrangler-Anweisungen

Eine Anweisung ist eine einzelne Anweisung, die in Wrangler verwendet wird. Mit Richtlinien wird festgelegt, wie Ihre Daten verarbeitet werden sollen, z. B. durch Transformieren, Filtern oder Pivotieren einzelner Einträge.

Die folgenden Konzepte beziehen sich auf Richtlinien:

Schema
Ein Rezept besteht aus einer Reihe von Anweisungen. Sie besteht aus einer oder mehreren Anweisungen.
Transformationsschritt
Ein Transformationsschritt ist eine Implementierung einer Anweisung zur Datentransformation, die auf einen einzelnen Datensatz oder mehrere Datensätze angewendet wird. Durch die Anwendung einer Anweisung kann ein Transformationsschritt null oder mehr Einträge generieren. Wrangler wendet die Transformationsschritte in der im Rezept angegebenen Reihenfolge an.

Wrangler-Komponenten

In den folgenden Abschnitten werden die Komponenten von Wrangler in Cloud Data Fusion Studio erläutert.

Wrangler-Arbeitsbereich

Der Wrangler-Arbeitsbereich ist eine Seite in der Cloud Data Fusion Studio-Benutzeroberfläche, auf der Sie Datensätze parsen, zusammenführen, bereinigen und transformieren. Auf der Seite Arbeitsbereich haben Sie folgende Möglichkeiten:

  • Fügen Sie einem Rezept über das Drop-down-Menü in jeder Spalte Transformationsschritte hinzu.
  • Wenn Sie die Schritte in einem Rezept aufrufen oder löschen möchten, wählen Sie den Tab Transformationsschritte aus.
  • Spalten mit leeren Feldern und anderen Informationen erkennen Sie an der Datenqualitätsleiste.
  • Klicken Sie auf Mehr, um das Schema für den Datensatz aufzurufen.
  • Erstellen Sie eine Datenpipeline mit einem Quell-Plug-in für das Dataset und die Wrangler-Transformation mit dem Rezept, das die Transformationsschritte enthält, die bei der Ausführung der Pipeline ausgeführt werden.

Wrangler-Energiemodus (Befehlszeile)

Wenn Sie Anweisungen mit deklarativer Syntax angeben möchten, verwenden Sie den Power-Modus (Befehlszeile). Sie ist für die folgenden Aufgaben nützlich:

  • Verwendung von Richtlinien, die nicht in der Studio-Benutzeroberfläche verfügbar sind
  • Benutzerdefinierte Anweisungen hinzufügen
  • Richtlinie auf mehrere Spalten anwenden

Wenn Sie den Wrangler-Hochleistungsmodus verwenden möchten, geben Sie Anweisungen in den schwarzen Balken unten auf dem Tab Daten ein.

Tab „Statistiken“ in Wrangler

Auf der Wrangler-Seite können Sie auf dem Tab Statistiken Datenanalysen für ein Dataset durchführen.

Beschränkungen

  • Wrangler wird nur für Batch-ETL-Pipelines unterstützt.
  • Wrangler wendet die Transformation nur auf die Stichprobendaten an. Diese Beispieldaten sind auf die ersten 1.000 Datensätze beschränkt.
  • Für Wrangler müssen Verbindungen mit der Quelle erstellt werden. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten.
  • Für Wrangler muss immer mindestens ein Wrangler-Arbeitsbereich geöffnet sein.
  • Das Klicken auf die Schaltfläche „Wrangle“ in der Wrangler-Transformation wird nicht unterstützt.

Sie haben zwei Möglichkeiten, über die Cloud Data Fusion Studio-Benutzeroberfläche auf Wrangler zuzugreifen:

  • Wenn Sie den Cloud Data Fusion Wrangler-Arbeitsbereich öffnen möchten, rufen Sie Cloud Data Fusion Studio auf und klicken Sie auf Wrangler.
  • Wenn Sie Wrangler-Properties konfigurieren möchten, rufen Sie Cloud Data Fusion Studio auf und klicken Sie auf Studio > Transformationen > Wrangler.

Mit einer Datenquelle verbinden

Wrangler unterstützt verschiedene Datenquellen wie BigQuery, Cloud Storage und externe Datenbanken (mit zusätzlicher Konfiguration). Wenn Sie Wrangler verwenden möchten, müssen Sie eine Verbindung zur Quelle herstellen.

Rufen Sie zum Erstellen der Verbindung die Liste Verbindungen auf und wählen Sie die Verbindung zu Ihrer Datenquelle aus. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten.

Daten analysieren und in der Vorschau ansehen

Wrangler zeigt zur Überprüfung eine Stichprobe Ihrer Daten (in der Regel 1.000 Zeilen) an. Sie erhalten eine Übersicht über das Datenschema, einschließlich Datentypen und grundlegender Statistiken.

Anweisungen anwenden

Wrangler bietet eine Vielzahl von integrierten Anweisungen für gängige Aufgaben beim Daten-Wranglen.

  • Ziehen Sie die ausgewählte Anweisung auf eine bestimmte Spalte oder in das Fenster für die Datenvorschau.
  • Für jede Richtlinie gibt es Konfigurationsoptionen, mit denen sich ihr Verhalten anpassen lässt.

Weitere Informationen finden Sie unter Wrangler-Befehlszeilenrichtlinien.

Vorschau der Transformationsergebnisse

Wenn Sie Anweisungen anwenden, wird das Fenster für die Datenvorschau dynamisch aktualisiert, um die Änderungen widerzuspiegeln. So sehen Sie die unmittelbaren Auswirkungen jeder Transformation auf Ihre Daten.

Optimieren und iterieren

Um den Datenwrangle-Prozess zu optimieren, fügen Sie weitere Anweisungen hinzu, ändern Sie die Konfigurationen und prüfen Sie die Vorschau.

Die visuelle Benutzeroberfläche von Wrangler hilft Ihnen, Tests durchzuführen und dafür zu sorgen, dass Ihre Transformationen das erwartete Ergebnis erzielen.

Transformationen zu einer Pipeline hinzufügen

Wrangler selbst ist keine Lösung für dauerhaften Speicher, aber Cloud Data Fusion bietet Möglichkeiten, Ihre Wrangling-Logik zu erfassen:

  • Erstellen Sie eine Pipeline. So wandeln Sie Ihre Wrangler-Transformationen im Wrangler-Arbeitsbereich in eine Cloud Data Fusion-Pipeline um:

    1. Klicken Sie auf Pipeline erstellen.
    2. Wählen Sie Batch-Pipeline aus. Die Seite Pipeline Studio wird mit einer Pipeline geöffnet, die eine Quelle und eine Wrangler-Transformation enthält.
  • Wenden Sie Transformationen an. Wenn Sie das Wrangler-Plug-in auf der Seite Studio verwenden, klicken Sie auf Übernehmen, um Ihre Wrangler-Transformationen in eine Cloud Data Fusion-Pipeline umzuwandeln.

Rezepte bearbeiten

Wenn Sie mit dem Wrangler-Arbeitsbereich eine Wrangler-Transformation erstellen, sollten Sie nach dem Hinzufügen der Wrangler-Transformation zu einer Pipeline die Wrangler-Benutzeroberfläche verwenden, um Rezepte hinzuzufügen oder zu bearbeiten.

Wenn Sie in der Wrangler-Transformation das Rezept manuell bearbeiten oder neue Schritte hinzufügen und sich die Änderungen auf das Ausgabeschema auswirken, müssen Sie das Ausgabeschema in der Wrangler-Transformation manuell aktualisieren, damit es den Änderungen im Rezept entspricht. Nur Rezepte, die im Wrangler-Arbeitsbereich erstellt oder bearbeitet wurden, erstellen und aktualisieren das Ausgabeschema in der Wrangler-Transformation automatisch.

So bearbeiten Sie ein Rezept in der Wrangler-Transformation, das in der Wrangler-Weboberfläche erstellt wurde:

  1. Klicken Sie in Ihrer Pipeline auf den Wrangler-Knoten und dann auf Attribute.
  2. Klicken Sie auf Wrangler.
  3. Bearbeiten oder fügen Sie ein neues Rezept hinzu.
  4. Klicken Sie auf Übernehmen.

Nächste Schritte