Diese Seite wurde von der Cloud Translation API übersetzt.

Daten aus Feldern extrahieren

Auf dieser Seite wird erläutert, wie Sie Daten aus einem Feld (einer Zelle) extrahieren und transformieren, wenn Sie Daten im Wrangler-Arbeitsbereich von Cloud Data Fusion Studio vorbereiten.

Um Transformationen auf diese Daten anzuwenden, teilen Sie sie in separate Spalten auf. In Wrangler können Sie Daten aus einer Spalte extrahieren und neue Spalten für die extrahierten Daten. Sie können Werte anhand von Mustern, Trennzeichen oder Positionen extrahieren.

Daten mithilfe von Mustern extrahieren

Mit der Funktion folgenden Mustern:

Kreditkarten
Datum
Datum/Uhrzeit
E-Mail
URLs aus HTML-Ankern
IPv4-Adresse
ISBN-Codes
MAC-Adresse
N-stellige Zahl
SSN
Start- und Endmuster
Zeit

So extrahieren Sie Daten basierend auf einem Muster:

Zum Wrangler-Arbeitsbereich in Cloud Data Fusion
Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
Wählen Sie Felder extrahieren > Anhand von Mustern aus und wählen Sie eine Option aus, z. B. URL.
Optional: Klicken Sie auf Muster anzeigen, um den regulären Ausdruck für das Muster aufzurufen.
Klicken Sie auf Extract.

Wrangler extrahiert die Felder anhand des ausgewählten Musters und fügt dem Rezept die Direktive extract-regex-groups hinzu. Wenn Sie die Datenpipeline ausführen, Cloud Data Fusion wendet die Transformation auf alle Zeilen in der Spalte an.

Im folgenden Beispiel enthält eine Spalte eine Zahl, gefolgt von einer E-Mail-Adresse:

E-Mails
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Wählen Sie zum Extrahieren der E-Mail-Adresse das Muster E-Mail aus. Wenn Sie auf Extrahieren: Der Wrangler behält die ursprüngliche Spalte bei und erstellt eine neue Spalte. der nur die E-Mail-Adressen enthält:

E-Mails	E-Mails_1
1 222larabrown@gmail.com	222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com	cloudysanfrancisco@gmail.com

Daten mit Trennzeichen extrahieren

Sie können Daten basierend auf den folgenden Kriterien in zwei oder mehr Spalten extrahieren: Trennzeichen:

Komma
Tabulatortaste
Senkrechter Strich
Leerraum
Benutzerdefiniertes Trennzeichen

Wenn ein Wert kein Trennzeichen enthält, wird dem entsprechenden Feld in der neuen Spalte kein Wert hinzugefügt.

So extrahieren Sie Werte anhand eines Trennzeichens:

Rufen Sie den Wrangler-Arbeitsbereich in Cloud Data Fusion auf.
Klicken Sie auf dem Tab Daten auf den Namen einer Spalte und dann auf den arrow_drop_down-Pfeil zum Maximieren der Spalte.
Wählen Sie Felder extrahieren > Mit Trennzeichen aus und wählen Sie eine Option aus, z. B. Komma.
Klicken Sie auf Extract.

Wrangler extrahiert die Felder anhand des ausgewählten Trennzeichens und fügt dem Rezept die Direktive split-to-columns hinzu. Wenn Sie die Datenpipeline ausführen, Cloud Data Fusion transformiert alle Werte in der Spalte.

Im folgenden Beispiel enthält eine Spalte mehrere durch Kommas getrennte Namen:

ID	Name
1	Lee, Lucian, Luka
2	Mahan,Noam,Nur

In diesem Beispiel werden mit dem Muster für Komma-Trennzeichen die Werte in der ursprünglichen Spalte Name in drei neue Spalten extrahiert:

ID	Name	Name_1	Name_2	Name_3
1	Lee, Lucian, Luka	Lee	Lucian	Luka
2	Mahan, Noam, Nur	Mahan	Noam	Nur

Daten nach Position extrahieren

Sie können einen Teil eines Strings basierend auf seiner Position im String extrahieren.

So extrahieren Sie Daten basierend auf ihrer Position:

Zum Wrangler-Arbeitsbereich in Cloud Data Fusion
Klicken Sie auf dem Tab Daten zu einem Spaltennamen arrow_drop_down Erweiterungspfeil.
Wählen Sie Felder extrahieren > Anhand von Positionen aus. Spaltenwerte, die extrahiert werden können, haben einen blauen Hintergrund.
Wählen Sie in einer beliebigen Zelle der Spalte die Zeichen aus, die extrahiert werden sollen.
Geben Sie in das Feld Name der Zielspalte einen Namen ein.
Klicken Sie auf Anwenden.

Der ausgewählte Teil des Werts wird aus jeder Zeile in der Spalte extrahiert.

Wrangler extrahiert die Felder anhand des ausgewählten Musters und fügt dem Rezept die Direktive cut-character hinzu. Wenn Sie die Datenpipeline ausführen, Cloud Data Fusion wendet die Transformation auf alle Werte in der Spalte an.

Nächste Schritte

Weitere Informationen zu Wrangler-Anweisungen