Auf dieser Seite wird beschrieben, wie Sie Dateien beim Vorbereiten von Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio analysieren. Mit Wrangler können Sie eine Datei parsen, bevor Sie sie in den Wrangler-Arbeitsbereich laden:
- Wrangler leitet Datentypen ab und ordnet jede Spalte dem abgeleiteten Datentyp zu, genau wie Dateiquellen-Plug-ins in Pipeline Studio.
- Wenn Schemainferenz nicht möglich ist, können Sie das Schema für eine Datei importieren wie z. B. JSON.
- Das Schema enthält keine parse-Anweisung, wodurch die Transformation während der Pipelineausführung.
- Wenn Sie eine Pipeline über Wrangler erstellen, enthält das Quell-Plug-in alle dieselben Parsing-Eigenschaften und Werte wie in Wrangler festgelegt.
Dateiverbindung erstellen
Wenn Sie eine Datei vor dem Laden in Wrangler parsen möchten, müssen Sie eine Dateiverbindung wie „Datei“, „Cloud Storage“ oder „Amazon S3“ verwenden.
- Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
- Klicken Sie auf den Erweiterungspfeil Daten auswählen, sehen Sie sich die verfügbaren Verbindungen an.
- Fügen Sie eine Verbindung für Dateien, Cloud Storage oder S3 hinzu. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten.
- Um das Dialogfeld mit den Parsing-Optionen zu öffnen, gehen Sie zum Bereich Daten auswählen und auf den Namen der Datei.
Geben Sie im Dialogfeld Parsing-Optionen die folgenden Informationen ein:
Wählen Sie im Feld Format das Dateiformat der zu speichernden Daten aus. read, z. B. csv. Weitere Informationen finden Sie unter Unterstützte Formate
- Wenn Sie das Trennzeichenformat auswählen, geben Sie im Feld Trennzeichen, angezeigt wird, geben Sie die Informationen für das Trennzeichen ein.
- Wenn Sie das CSV-, TSV- oder Trennzeichenformat auswählen, wird die Option Anführungszeichen aktivieren
Werte angezeigt. Wenn Ihre Daten in Anführungszeichen gesetzt sind, wählen Sie True aus. Mit dieser Einstellung werden Anführungszeichen aus der geparsten Ausgabe entfernt. Die folgende Eingabe,
1, "a, b, c"
, wird beispielsweise in zwei Felder zerlegt. Das erste Feld hat den Wert1
. Die zweite hat den Werta, b, c
. Das Trennzeichen für Zeilenumbrüche darf nicht in Anführungszeichen stehen. - Wenn Sie „Text“, „CSV“, „TSV“ oder „Trennzeichenformat“ ausgewählt haben, wird das Feld Erste Zeile als Überschrift verwenden angezeigt. Um die erste Zeile jeder Datei für eine Spaltenüberschrift wählen Sie Wahr aus.
Wählen Sie im Feld Dateicodierung die Dateicodierung der Quelldatei aus, z. B. UTF-8.
Optional: Wenn Sie das Schema importieren oder das abgeleitete Schema für die Datei überschreiben möchten, klicken Sie auf Schema importieren. Sie importieren das Schema für Formate wie JSON und einige Avro-Dateien, bei denen keine Schemainferenz möglich ist. Das Schema muss im Avro-Format vorliegen.
Klicken Sie auf Bestätigen. Die geparste Datei wird im Wrangler-Arbeitsbereich angezeigt.
Unterstützte Formate
Die folgenden Formate werden für das Parsen von Dateien unterstützt:
- Avro
- Blob (das Blob-Format erfordert ein Schema, das ein Feld namens
body
enthält vom Typbytes
) - CSV
- Begrenzt
- JSON
- Parquet
- Text (das Textformat erfordert ein Schema, das ein Feld namens
body
enthält vom Typstring
) - TSV