Questa pagina spiega come estrarre e trasformare i dati da un campo (una cella) quando prepari i dati nello spazio di lavoro Wrangler di Studio di Cloud Data Fusion.
Per eseguire trasformazioni su questi dati, li suddividi in colonne separate. In Wrangler, puoi estrarre i dati da una colonna e creare nuove colonne per i dati estratti. Puoi estrarre i valori in base a pattern, delimitatori o posizioni.
Estrarre i dati utilizzando i pattern
Puoi estrarre i dati dai campi nelle colonne del tipo di dati stringa con i seguenti pattern:
- Carte di credito
- Data
- Data/ora
- URL dalle ancore HTML
- Indirizzo IPv4
- Codici ISBN
- Indirizzo MAC
- Numero di N cifre
- SSN
- Pattern di inizio e di fine
- Ora
Per estrarre i dati in base a un pattern:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
- Seleziona Estrai campi > Utilizzando pattern e seleziona un'opzione, ad esempio URL.
- (Facoltativo) Fai clic su Mostra pattern per visualizzare l'espressione regolare per il pattern.
- Fai clic su Estrai.
Wrangler estrae i campi in base al pattern scelto e aggiunge la direttiva extract-regex-groups
alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion applica la trasformazione a tutte le righe della colonna.
Nel seguente esempio, una colonna contiene un numero seguito da un indirizzo email:
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
Per estrarre l'indirizzo email, seleziona il pattern Email. Quando fai clic su Estrai, Wrangler conserva la colonna originale e crea una nuova colonna contenente solo gli indirizzi email:
Emails_1 | |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
Estrarre i dati con i delimitatori
Puoi estrarre i dati in due o più colonne in base ai seguenti delimitatori:
- Virgola
- TAB
- Barra verticale
- Spazio vuoto
- Separatore personalizzato
Se un valore non ha il delimitatore, non viene aggiunto alcun valore al campo corrispondente nella nuova colonna.
Per estrarre i valori in base a un delimitatore:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
- Seleziona Estrai campi > Utilizzando delimitatori e seleziona un'opzione, ad esempio Virgola.
- Fai clic su Estrai.
Wrangler estrae i campi in base al delimitatore selezionato e aggiunge la direttiva split-to-columns
alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion trasforma tutti i valori della colonna.
Nel seguente esempio, una colonna contiene più nomi separati da virgole:
ID | Nome |
---|---|
1 | Lee,Lucian,Luka |
2 | Mahan,Noam,Nur |
In questo esempio, l'utilizzo del pattern di delimitatori di virgola estrae i valori della colonna Name
originale in tre nuove colonne:
ID | Nome | Nome_1 | Nome_2 | Name_3 |
---|---|---|---|---|
1 | Lee,Lucian,Luka | Lee | Lucian | Luka |
2 | Mahan,Noam,Nur | Mahan | Noam | Nur |
Estrare i dati in base alla posizione
Puoi estrarre parte di una stringa in base alla sua posizione nella stringa.
Per estrarre i dati in base alla posizione:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
- Seleziona Estrai campi > Utilizzando le posizioni. I valori delle colonne che puoi estrarre vengono visualizzati con uno sfondo blu.
- In una qualsiasi cella della colonna, seleziona i caratteri da estrarre.
- Nel campo Nome della colonna di destinazione, inserisci un nome.
- Fai clic su Applica.
La parte scelta del valore viene estratta da ogni riga della colonna.
Wrangler estrae i campi in base al pattern selezionato e aggiunge la direttivacut-character
alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion applica la trasformazione a tutti i valori della colonna.
Passaggi successivi
- Scopri di più sulle istruzioni di Wrangler.