Questa pagina spiega come estrarre e trasformare i dati da un campo (una cella) quando prepari i dati nello spazio di lavoro Wrangler di Studio di Cloud Data Fusion.
Per eseguire trasformazioni su questi dati, li suddividi in parti colonne. In Wrangler, puoi estrarre i dati da una colonna e crearne di nuovi colonne per i dati estratti. Puoi estrarre i valori in base a pattern, delimitatori o posizioni.
Estrarre i dati utilizzando i pattern
Puoi estrarre i dati dai campi in colonne del tipo di dati stringa con i seguenti pattern:
- Carte di credito
- Data
- Data ora
- URL dalle ancore HTML
- Indirizzo IPv4
- Codici ISBN
- Indirizzo MAC
- Numero di N cifre
- SSN
- Pattern di inizio e di fine
- Ora
Per estrarre i dati in base a un pattern:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
- Seleziona Estrai campi > Utilizzando pattern e seleziona un'opzione, ad esempio URL.
- (Facoltativo) Fai clic su Mostra pattern per visualizzare l'espressione regolare per il pattern.
- Fai clic su Estrai.
Wrangler estrae i campi in base al pattern scelto e aggiunge la classe
extract-regex-groups
alla ricetta. Quando esegui la pipeline di dati,
Cloud Data Fusion applica la trasformazione a tutte le righe della colonna.
Nel seguente esempio, una colonna contiene un numero seguito da un indirizzo email:
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Per estrarre l'indirizzo email, seleziona il pattern Email. Quando fai clic su Estrai, Wrangler conserva la colonna originale e crea una nuova colonna contenente solo gli indirizzi email:
Emails_1 | |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Estrarre i dati con i delimitatori
Puoi estrarre i dati in due o più colonne in base ai seguenti delimitatori:
- Virgola
- TAB
- Barra verticale
- Spazio vuoto
- Separatore personalizzato
Se un valore non ha il delimitatore, non viene aggiunto alcun valore al campo corrispondente nella nuova colonna.
Per estrarre valori in base a un delimitatore:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai al nome di una colonna e fai clic sull'icona arrow_drop_down freccia di espansione.
- Seleziona Estrai campi > Utilizza delimitatori e scegli un ad esempio Virgola.
- Fai clic su Estrai.
Wrangler estrae i campi in base al delimitatore selezionato e aggiunge il valore
split-to-columns
alla ricetta. Quando esegui la pipeline di dati,
Cloud Data Fusion trasforma tutti i valori nella colonna.
Nel seguente esempio, una colonna contiene più nomi separati da virgole:
ID | Nome |
---|---|
1 | Lee,Luciano,Luka |
2 | Mahan, Noam, Nur |
In questo esempio, l'utilizzo del pattern di delimitatori di virgole estrae i valori della colonna Name
originale in tre nuove colonne:
ID | Nome | Name_1 | Nome_2 | Name_3 |
---|---|---|---|---|
1 | Lee, Lucian, Luka | Lee | Lucian | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Estrare i dati in base alla posizione
Puoi estrarre parte di una stringa in base alla sua posizione nella stringa.
Per estrarre i dati in base alla posizione:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
- Seleziona Estrai campi > Utilizzando le posizioni. I valori delle colonne che puoi estrarre vengono visualizzati con uno sfondo blu.
- In una cella qualsiasi della colonna, seleziona i caratteri da estrarre.
- Nel campo Nome della colonna di destinazione, inserisci un nome.
- Fai clic su Applica.
La parte scelta del valore viene estratta da ogni riga della colonna.
Wrangler estrae i campi in base al pattern selezionato e aggiunge la variabile
cut-character
alla ricetta. Quando esegui la pipeline di dati,
Cloud Data Fusion applica la trasformazione a tutti i valori nella colonna.
Passaggi successivi
- Scopri di più sulle istruzioni di Wrangler.