Auf dieser Seite wird beschrieben, wie Sie Dateien beim Vorbereiten von Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio parsen. Mit Wrangler können Sie eine Datei parsen, bevor Sie sie in den Wrangler-Arbeitsbereich laden:
- Wrangler leitet Datentypen ab und ordnet jede Spalte dem abgeleiteten Datentyp zu, genau wie Dateiquellen-Plug-ins in Pipeline Studio.
- Wenn die Schemainferenz nicht möglich ist, können Sie das Schema in einem Dateiformat wie JSON importieren.
- Das Rezept enthält keine Parse-Anweisung, wodurch die Transformationslogik bei Pipelineausführungen reduziert wird.
- Wenn Sie eine Pipeline in Wrangler erstellen, enthält das Quell-Plug-in dieselben Parse-Attribute und ‑Werte, die Sie in Wrangler festgelegt haben.
Dateiverbindung erstellen
Wenn Sie eine Datei vor dem Laden in Wrangler parsen möchten, müssen Sie eine Dateiverbindung wie „Datei“, „Cloud Storage“ oder „Amazon S3“ verwenden.
- Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
- Klicken Sie auf den Erweiterungspfeil Daten auswählen, um die verfügbaren Verbindungen aufzurufen.
- Fügen Sie eine Verbindung für Dateien, Cloud Storage oder S3 hinzu. Weitere Informationen finden Sie unter Verbindungen erstellen und verwalten.
- Wenn Sie das Dialogfeld mit den Parseoptionen öffnen möchten, klicken Sie im Bereich Daten auswählen auf den Namen der Datei.
Geben Sie im Dialogfeld Parsing-Optionen die folgenden Informationen ein:
Wählen Sie im Feld Format das Dateiformat der gelesenen Daten aus, z. B. csv. Weitere Informationen finden Sie unter Unterstützte Formate.
- Wenn Sie das Trennzeichenformat auswählen, geben Sie die Trennzeicheninformationen in das Feld Trennzeichen ein.
- Wenn Sie CSV, TSV oder ein Trennzeichenformat auswählen, wird das Feld Anführungszeichen für Werte aktivieren angezeigt. Wenn Ihre Daten in Anführungszeichen gesetzt sind, wählen Sie True aus. Mit dieser Einstellung werden Anführungszeichen aus der geparsten Ausgabe entfernt. Die folgende Eingabe,
1, "a, b, c"
, wird beispielsweise in zwei Felder zerlegt. Das erste Feld hat den Wert1
. Das zweite Feld hat den Werta, b, c
. Das Trennzeichen für neue Zeilen darf nicht in Anführungszeichen stehen. - Wenn Sie „Text“, „CSV“, „TSV“ oder „Trennzeichenformat“ ausgewählt haben, wird das Feld Erste Zeile als Überschrift verwenden angezeigt. Wenn Sie die erste Zeile jeder Datei als Spaltenüberschrift verwenden möchten, wählen Sie True aus.
Wählen Sie im Feld Dateikodierung die Dateicodierung der Quelldatei aus, z. B. UTF-8.
Optional: Wenn Sie das Schema importieren oder das abgeleitete Schema für die Datei überschreiben möchten, klicken Sie auf Schema importieren. Sie importieren das Schema für Formate wie JSON und einige Avro-Dateien, bei denen keine Schemainferenz möglich ist. Das Schema muss im Avro-Format vorliegen.
Klicken Sie auf Bestätigen. Die geparste Datei wird im Wrangler-Arbeitsbereich angezeigt.
Unterstützte Formate
Die folgenden Formate werden für das Parsen von Dateien unterstützt:
- Avro
- Blob (das Blob-Format erfordert ein Schema mit einem Feld namens
body
vom Typbytes
) - CSV
- Getrennt
- JSON
- Parquet
- Text (für das Textformat ist ein Schema mit einem Feld namens
body
vom Typstring
erforderlich) - TSV