Daten aus Feldern extrahieren

Auf dieser Seite wird erläutert, wie Sie Daten aus einem Feld (einer Zelle) extrahieren und transformieren, wenn Sie Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio vorbereiten.

Um Transformationen auf diese Daten anzuwenden, teilen Sie sie in separate Spalten auf. In Wrangler können Sie Daten aus einer Spalte extrahieren und neue Spalten für die extrahierten Daten. Sie können Werte anhand von Mustern, Trennzeichen oder Positionen extrahieren.

Daten mithilfe von Mustern extrahieren

Mit der Funktion folgenden Mustern:

  • Kreditkarten
  • Datum
  • Datum/Uhrzeit
  • E-Mail
  • URLs aus HTML-Ankern
  • IPv4-Adresse
  • ISBN-Codes
  • MAC-Adresse
  • N-stellige Zahl
  • SSN
  • Start- und Endmuster
  • Zeit

So extrahieren Sie Daten basierend auf einem Muster:

  1. Zum Wrangler-Arbeitsbereich in Cloud Data Fusion
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Wählen Sie Felder extrahieren > Anhand von Mustern aus und wählen Sie eine Option aus, z. B. URL.
  4. Optional: Klicken Sie auf Muster anzeigen, um den regulären Ausdruck für das Muster aufzurufen.
  5. Klicken Sie auf Extract.

Wrangler extrahiert die Felder anhand des ausgewählten Musters und fügt dem Rezept die Direktive extract-regex-groups hinzu. Wenn Sie die Datenpipeline ausführen, Cloud Data Fusion wendet die Transformation auf alle Zeilen in der Spalte an.

Im folgenden Beispiel enthält eine Spalte eine Zahl, gefolgt von einer E-Mail-Adresse:

E-Mails
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Wählen Sie zum Extrahieren der E-Mail-Adresse das Muster E-Mail aus. Wenn Sie auf Extrahieren: Der Wrangler behält die ursprüngliche Spalte bei und erstellt eine neue Spalte. der nur die E-Mail-Adressen enthält:

E-Mails E-Mails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Daten mit Trennzeichen extrahieren

Sie können Daten basierend auf den folgenden Kriterien in zwei oder mehr Spalten extrahieren: Trennzeichen:

  • Komma
  • Tabulatortaste
  • Senkrechter Strich
  • Leerraum
  • Benutzerdefiniertes Trennzeichen

Wenn ein Wert kein Trennzeichen enthält, wird dem entsprechenden Feld in der neuen Spalte kein Wert hinzugefügt.

So extrahieren Sie Werte anhand eines Trennzeichens:

  1. Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Wählen Sie Felder extrahieren > Mit Trennzeichen aus und wählen Sie eine Option aus, z. B. Komma.
  4. Klicken Sie auf Extract.

Wrangler extrahiert die Felder anhand des ausgewählten Trennzeichens und fügt dem Rezept die Direktive split-to-columns hinzu. Wenn Sie die Datenpipeline ausführen, Cloud Data Fusion transformiert alle Werte in der Spalte.

Im folgenden Beispiel enthält eine Spalte mehrere durch Kommas getrennte Namen:

ID Name
1 Lee, Lucian, Luka
2 Mahan,Noam,Nur

In diesem Beispiel werden mit dem Muster für Komma-Trennzeichen die Werte in der ursprünglichen Spalte Name in drei neue Spalten extrahiert:

ID Name Name_1 Name_2 Name_3
1 Lee, Lucian, Luka Lee Lucian Luka
2 Mahan, Noam, Nur Mahan Noam Nur

Daten nach Position extrahieren

Sie können einen Teil eines Strings basierend auf seiner Position im String extrahieren.

So extrahieren Sie Daten basierend auf ihrer Position:

  1. Zum Wrangler-Arbeitsbereich in Cloud Data Fusion
  2. Klicken Sie auf dem Tab Daten zu einem Spaltennamen arrow_drop_down Erweiterungspfeil.
  3. Wählen Sie Felder extrahieren > Anhand von Positionen aus. Spaltenwerte, die extrahiert werden können, haben einen blauen Hintergrund.
  4. Wählen Sie in einer beliebigen Zelle der Spalte die Zeichen aus, die extrahiert werden sollen.
  5. Geben Sie in das Feld Name der Zielspalte einen Namen ein.
  6. Klicken Sie auf Anwenden.

Der ausgewählte Teil des Werts wird aus jeder Zeile in der Spalte extrahiert.

Wrangler extrahiert die Felder anhand des ausgewählten Musters und fügt dem Rezept die Direktive cut-character hinzu. Wenn Sie die Datenpipeline ausführen, Cloud Data Fusion wendet die Transformation auf alle Werte in der Spalte an.

Nächste Schritte