Daten aus Feldern explodieren

Auf dieser Seite wird erläutert, wie Sie Daten aus einem Feld (einer Zelle) in mehrere Zeilen aufteilen, wenn Sie Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio vorbereiten.

Getrennten Text

Sie können die Werte einer Zelle in neue Zeilen aufteilen, wenn sie durch die folgenden Trennzeichen getrennt sind:

  • Komma
  • Tabulatortaste
  • Senkrechter Strich
  • Leerraum
  • Benutzerdefiniertes Trennzeichen

Wenn eine Zelle das ausgewählte Trennzeichen nicht enthält, wird keine neue Zeile eingefügt.

So teilen Sie Werte basierend auf einem Trennzeichen auf:

  1. Zum Wrangler-Arbeitsbereich in Cloud Data Fusion
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Klicken Sie auf Aufteilen > Getrennter Text.
  4. Wählen Sie ein Trennzeichen aus, z. B. Pipe.
  5. Klicken Sie auf Extract.

Wrangler teilt die Felder basierend auf dem ausgewählten Trennzeichen auf und fügt die Felder split-to-row-Anweisung zum Schema. Wenn Sie die Datenpipeline ausführen, wendet Cloud Data Fusion die Transformation auf alle Werte in der Spalte an.

In diesem Beispiel hat ein Dataset eine Spalte mit Stringwerten, die das Komma Trennzeichen:

ID Name
1 Lee, Lucian, Luka
2 Mahan (Noam)

Um den Wert in separate Zeilen aufzuteilen, löscht Wrangler die ursprüngliche Spalte und erstellt eine neue Spalte mit einer Zeile für jeden Wert. Die anderen Spaltenwerte aus der ursprünglichen Zeile werden in die neuen Zeilen kopiert:

ID Name_1
1 Lee
1 Lukisch
1 Luka
2 Mahan
2 Noam

Arrays trennen

Die flatten-Anweisung trennt Elemente in Arrays wie ["ELEMENT_1", "ELEMENT_2", "ELEMENT_3"] in neue Zeilen. Die anderen Spaltenwerte aus der des ursprünglichen Eintrags werden in die neuen Datensätze kopiert.

Nächste Schritte