Daten aus Feldern extrahieren

Auf dieser Seite wird erläutert, wie Sie Daten aus einem Feld (einer Zelle) extrahieren und transformieren, wenn Sie Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio vorbereiten.

Um Transformationen auf diese Daten anzuwenden, teilen Sie sie in separate Spalten auf. In Wrangler können Sie Daten aus einer Spalte extrahieren und neue Spalten für die extrahierten Daten erstellen. Sie können Werte anhand von Mustern, Trennzeichen oder Positionen extrahieren.

Daten mithilfe von Mustern extrahieren

Mit den folgenden Mustern können Sie Daten aus Feldern in Spalten vom Datentyp „String“ extrahieren:

  • Kreditkarten
  • Datum
  • Datum/Uhrzeit
  • E-Mail
  • URLs von HTML-Ankern
  • IPv4-Adresse
  • ISBN-Codes
  • MAC-Adresse
  • N-stellige Zahl
  • SSN
  • Start- und Endmuster
  • Zeit

So extrahieren Sie Daten anhand eines Musters:

  1. Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Wählen Sie Felder extrahieren > Anhand von Mustern aus und wählen Sie eine Option aus, z. B. URL.
  4. Optional: Klicken Sie auf Muster anzeigen, um den regulären Ausdruck für das Muster aufzurufen.
  5. Klicken Sie auf Extract.

Wrangler extrahiert die Felder anhand des ausgewählten Musters und fügt dem Rezept die Direktive extract-regex-groups hinzu. Wenn Sie die Datenpipeline ausführen, wendet Cloud Data Fusion die Transformation auf alle Zeilen in der Spalte an.

Im folgenden Beispiel enthält eine Spalte eine Zahl, gefolgt von einer E-Mail-Adresse:

E-Mail-Adressen
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Wählen Sie zum Extrahieren der E-Mail-Adresse das Muster E-Mail aus. Wenn Sie auf Extrahieren klicken, behält Wrangler die ursprüngliche Spalte bei und erstellt eine neue Spalte, die nur die E-Mail-Adressen enthält:

E-Mail-Adressen E-Mails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Daten mit Trennzeichen extrahieren

Sie können Daten anhand der folgenden Trennzeichen in zwei oder mehr Spalten extrahieren:

  • Komma
  • Tab
  • Senkrechter Strich
  • Leerzeichen
  • Benutzerdefiniertes Trennzeichen

Wenn ein Wert kein Trennzeichen enthält, wird dem entsprechenden Feld in der neuen Spalte kein Wert hinzugefügt.

So extrahieren Sie Werte anhand eines Trennzeichens:

  1. Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Wählen Sie Felder extrahieren > Mit Trennzeichen aus und wählen Sie eine Option aus, z. B. Komma.
  4. Klicken Sie auf Extract.

Wrangler extrahiert die Felder anhand des ausgewählten Trennzeichens und fügt dem Rezept die Direktive split-to-columns hinzu. Wenn Sie die Datenpipeline ausführen, werden alle Werte in der Spalte in Cloud Data Fusion transformiert.

Im folgenden Beispiel enthält eine Spalte mehrere Namen, die durch Kommas getrennt sind:

ID Name
1 Lee,Lucian,Luka
2 Mahan,Noam,Nur

In diesem Beispiel werden mit dem Muster für Komma-Trennzeichen die Werte in der ursprünglichen Spalte Name in drei neue Spalten extrahiert:

ID Name Name_1 Name_2 Name_3
1 Lee,Lucian,Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Daten nach Position extrahieren

Sie können einen Teil eines Strings anhand seiner Position im String extrahieren.

So extrahieren Sie Daten anhand ihrer Position:

  1. Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
  2. Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
  3. Wählen Sie Felder extrahieren > Anhand von Positionen aus. Spaltenwerte, die extrahiert werden können, haben einen blauen Hintergrund.
  4. Wählen Sie in einer beliebigen Zelle der Spalte die Zeichen aus, die Sie extrahieren möchten.
  5. Geben Sie im Feld Name der Zielspalte einen Namen ein.
  6. Klicken Sie auf Übernehmen.

Der ausgewählte Teil des Werts wird aus jeder Zeile in der Spalte extrahiert.

Wrangler extrahiert die Felder anhand des ausgewählten Musters und fügt dem Rezept die Direktive cut-character hinzu. Wenn Sie die Datenpipeline ausführen, wendet Cloud Data Fusion die Transformation auf alle Werte in der Spalte an.

Nächste Schritte