Estrarre i dati dai campi

Questa pagina spiega come estrarre e trasformare i dati da un campo (una cella) quando prepari i dati nello spazio di lavoro Wrangler di Studio di Cloud Data Fusion.

Per eseguire trasformazioni su questi dati, li suddividi in colonne separate. In Wrangler, puoi estrarre i dati da una colonna e creare nuove colonne per i dati estratti. Puoi estrarre i valori in base a pattern, delimitatori o posizioni.

Estrarre i dati utilizzando i pattern

Puoi estrarre i dati dai campi nelle colonne del tipo di dati stringa con i seguenti pattern:

  • Carte di credito
  • Data
  • Data/ora
  • Email
  • URL dalle ancore HTML
  • Indirizzo IPv4
  • Codici ISBN
  • Indirizzo MAC
  • Numero di N cifre
  • SSN
  • Pattern di inizio e di fine
  • Ora

Per estrarre i dati in base a un pattern:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
  3. Seleziona Estrai campi > Utilizzando pattern e seleziona un'opzione, ad esempio URL.
  4. (Facoltativo) Fai clic su Mostra pattern per visualizzare l'espressione regolare per il pattern.
  5. Fai clic su Estrai.

Wrangler estrae i campi in base al pattern scelto e aggiunge la direttiva extract-regex-groups alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion applica la trasformazione a tutte le righe della colonna.

Nel seguente esempio, una colonna contiene un numero seguito da un indirizzo email:

Email
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Per estrarre l'indirizzo email, seleziona il pattern Email. Quando fai clic su Estrai, Wrangler conserva la colonna originale e crea una nuova colonna contenente solo gli indirizzi email:

Email Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Estrarre i dati con i delimitatori

Puoi estrarre i dati in due o più colonne in base ai seguenti delimitatori:

  • Virgola
  • TAB
  • Barra verticale
  • Spazio vuoto
  • Separatore personalizzato

Se un valore non ha il delimitatore, non viene aggiunto alcun valore al campo corrispondente nella nuova colonna.

Per estrarre i valori in base a un delimitatore:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
  3. Seleziona Estrai campi > Utilizzando delimitatori e seleziona un'opzione, ad esempio Virgola.
  4. Fai clic su Estrai.

Wrangler estrae i campi in base al delimitatore selezionato e aggiunge la direttiva split-to-columns alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion trasforma tutti i valori della colonna.

Nel seguente esempio, una colonna contiene più nomi separati da virgole:

ID Nome
1 Lee,Lucian,Luka
2 Mahan,Noam,Nur

In questo esempio, l'utilizzo del pattern di delimitatori di virgola estrae i valori della colonna Name originale in tre nuove colonne:

ID Nome Nome_1 Nome_2 Name_3
1 Lee,Lucian,Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Estrare i dati in base alla posizione

Puoi estrarre parte di una stringa in base alla sua posizione nella stringa.

Per estrarre i dati in base alla posizione:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
  3. Seleziona Estrai campi > Utilizzando le posizioni. I valori delle colonne che puoi estrarre vengono visualizzati con uno sfondo blu.
  4. In una qualsiasi cella della colonna, seleziona i caratteri da estrarre.
  5. Nel campo Nome della colonna di destinazione, inserisci un nome.
  6. Fai clic su Applica.

La parte scelta del valore viene estratta da ogni riga della colonna.

Wrangler estrae i campi in base al pattern selezionato e aggiunge la direttivacut-character alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion applica la trasformazione a tutti i valori della colonna.

Passaggi successivi