Wrangler ist ein visuelles Datenvorbereitungstool in Cloud Data Fusion. Studio-Oberfläche. Damit können Sie Daten bereinigen und transformieren, bevor Sie sie in ETL-Pipelines (Extract, Transform, Load) verwenden. In Wrangler werden Transformationen an einer Stelle auf eine Stichprobe Ihrer Daten angewendet (Vorschau), bevor die Logik auf den gesamten Datensatz angewendet wird. In dieser Vorschau können Sie Transformationen anwenden wie sie sich auf das gesamte Dataset auswirken.
Wrangler-Anweisungen
Eine Anweisung ist eine einzelne Anweisung, die im Wrangler verwendet wird. Anweisungen angeben, wie Ihre Daten bearbeitet werden sollen, z. B. durch Transformieren, Filtern oder Pivoting einzelner Datensätze.
Die folgenden Konzepte beziehen sich auf Richtlinien:
- Schema
- Ein Schema besteht aus einer Reihe von Anweisungen. Sie besteht aus einer oder mehreren Anweisungen.
- Transformationsschritt
- Ein Transformationsschritt ist die Implementierung einer Anweisung zur Datentransformation. die mit einem einzelnen Datensatz oder Datensätzen arbeiten. Ein Transformationsschritt kann null oder mehr Datensätze durch Anwendung einer Anweisung generieren. Wrangler wendet die Transformationsschritte in der im Schema aufgeführten Reihenfolge an.
Wrangler-Komponenten
In den folgenden Abschnitten werden die Komponenten von Wrangler in Cloud Data Fusion Studio erläutert.
Wrangler-Arbeitsbereich
Der Wrangler-Arbeitsbereich ist eine Seite in der Benutzeroberfläche von Cloud Data Fusion Studio in dem Sie Datasets parsen, zusammenführen, bereinigen und transformieren. In Workspace können Sie Folgendes tun:
- Fügen Sie einem Rezept über das Drop-down-Menü in jeder Spalte Transformationsschritte hinzu.
- Sie können Schritte in einem Schema ansehen oder löschen, indem Sie die Option Transformationsschritte auswählen. .
- Spalten mit leeren Feldern und andere Informationen finden Sie, indem Sie das Balken für Datenqualität:
- Rufen Sie das Schema für das Dataset auf, indem Sie auf Mehr klicken.
- Erstellen Sie eine Datenpipeline mit einem Quell-Plug-in für das Dataset. und die Wrangler-Transformation mit dem Schema, das die Transformationsschritten, die beim Ausführen der Pipeline ausgeführt werden.
Wrangler-Strommodus (CLI)
Verwenden Sie den Power Mode (CLI), um Anweisungen mit deklarativer Syntax anzugeben. Es ist ist für folgende Aufgaben nützlich:
- Anweisungen verwenden, die in der Studio-Oberfläche nicht verfügbar sind
- Benutzerdefinierte Anweisungen hinzufügen
- Anweisung auf mehrere Spalten anwenden
Um den Wrangler Power Mode zu verwenden, geben Sie Anweisungen in die schwarze Leiste am unteren Rand der Wrangler-Tab Daten.
Tab „Wrangler-Statistiken“
Auf der Wrangler-Seite können Sie auf dem Tab Statistiken Datenanalysen für ein Dataset durchführen.
Beschränkungen
- Wrangler wird nur für Batch-ETL-Pipelines unterstützt.
- Wrangler wendet die Transformation nur auf die Beispieldaten an. Dieses Beispiel Daten auf die ersten 1.000 Datensätze beschränkt.
- Für Wrangler müssen Verbindungen zur Quelle erstellt werden. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten
- Für Wrangler muss immer mindestens ein Wrangler-Arbeitsbereich geöffnet sein.
- Das Klicken auf die Wrangle-Schaltfläche in der Wrangler-Transformation wird nicht unterstützt.
Wrangler in Cloud Data Fusion aufrufen
Von Cloud Data Fusion Studio aus haben Sie zwei Möglichkeiten, auf Wrangler zuzugreifen Schnittstelle:
- So öffnen Sie den Cloud Data Fusion Wrangler-Arbeitsbereich: Rufen Sie Cloud Data Fusion Studio auf und klicken Sie auf Wrangler.
- Rufen Sie Cloud Data Fusion Studio auf, um Wrangler-Eigenschaften zu konfigurieren. und klicke auf Studio > Transformationen > Wrangler.
Mit einer Datenquelle verbinden
Wrangler unterstützt verschiedene Datenquellen wie BigQuery, Cloud Storage und externe Datenbanken (mit zusätzlicher Konfiguration). Um Wrangler verwenden möchten, müssen Sie eine Verbindung zur Quelle erstellen.
Rufen Sie zum Erstellen der Verbindung die Liste Connections (Verbindungen) auf und wählen Sie das Verbindung zur Datenquelle. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten
Daten untersuchen und als Vorschau ansehen
Wrangler zeigt eine Stichprobe Ihrer Daten (in der Regel 1.000 Zeilen) zur Prüfung an. Sie erhalten eine Übersicht über das Datenschema, einschließlich Datentypen und grundlegender Statistiken.
Anweisungen anwenden
Wrangler bietet eine Vielzahl von integrierten Anweisungen für gängiges Data Wrangling. Aufgaben.
- Ziehen Sie die ausgewählte Anweisung auf eine bestimmte Spalte oder die Daten Vorschaufenster öffnen.
- Jede Anweisung verfügt über Konfigurationsoptionen, mit denen ihr Verhalten angepasst werden kann.
Weitere Informationen finden Sie unter Wrangler-Befehlszeilenanweisungen.
Vorschau der Transformationsergebnisse ansehen
Wenn Sie Anweisungen anwenden, wird das Fenster für die Datenvorschau dynamisch aktualisiert, um die die Änderungen vor. So erkennen Sie sofort die Auswirkungen jeder Transformation. für Ihre Daten.
Optimieren und iterieren
Um Ihren Datenaufbereitungsprozess zu verfeinern, fügen Sie weiterhin Anweisungen hinzu, ändern Sie und die Vorschau überprüfen.
Über die visuelle Schnittstelle von Wrangler können Sie experimentieren und sicherstellen, dass Transformationen zum erwarteten Ergebnis führen.
Transformationen zu einer Pipeline hinzufügen
Wrangler selbst ist keine Lösung für dauerhaften Speicher, aber Cloud Data Fusion bietet Möglichkeiten, Ihre Wrangling-Logik zu erfassen:
Pipeline erstellen Konvertieren Sie Ihren Wrangler im Wrangler-Arbeitsbereich. in eine Cloud Data Fusion-Pipeline umwandeln, indem Sie Schritte:
- Klicken Sie auf Pipeline erstellen.
- Wählen Sie Batch-Pipeline aus. Die Seite Pipeline Studio wird mit einer Pipeline geöffnet, die eine Quelle und eine Wrangler-Transformation enthält.
Transformationen anwenden Wenn Sie das Wrangler-Plug-in auf der Studio-Seite verwenden, konvertieren Sie Ihre Wrangler-Transformationen in eine Cloud Data Fusion-Pipeline durch Klicken auf Anwenden.
Rezepte bearbeiten
Wenn Sie den Wrangler-Arbeitsbereich zum Erstellen einer Wrangler-Transformation verwenden, nachdem einer Pipeline hinzufügen, wird empfohlen, über die Wrangler-Schnittstelle, um Schemas hinzuzufügen oder zu bearbeiten.
Wenn Sie in der Wrangler-Transformation das Rezept manuell bearbeiten oder neue Schritte hinzufügen und sich die Änderungen auf das Ausgabeschema auswirken, müssen Sie das Ausgabeschema in der Wrangler-Transformation manuell aktualisieren, damit es den Änderungen im Rezept entspricht. Nur Schemas, die im Wrangler-Arbeitsbereich erstellt oder bearbeitet wurden, das Ausgabeschema in der Wrangler-Transformation automatisch zu erstellen und zu aktualisieren.
So bearbeiten Sie ein Schema in der Wrangler-Transformation, die im Wrangler erstellt wurde: Web-Oberfläche verwenden, gehen Sie folgendermaßen vor:
- Klicken Sie in Ihrer Pipeline auf den Wrangler-Knoten und dann auf Attribute.
- Klicken Sie auf Wrangler.
- Bearbeiten Sie das Schema oder fügen Sie ein neues hinzu.
- Klicken Sie auf Anwenden.