Estrarre i dati dai campi

Questa pagina spiega come estrarre e trasformare i dati da un campo (una cella) quando prepari i dati nello spazio di lavoro Wrangler di Studio di Cloud Data Fusion.

Per eseguire trasformazioni su questi dati, li suddividi in parti colonne. In Wrangler, puoi estrarre i dati da una colonna e crearne di nuovi colonne per i dati estratti. Puoi estrarre i valori in base a pattern, delimitatori o posizioni.

Estrarre i dati utilizzando i pattern

Puoi estrarre i dati dai campi in colonne del tipo di dati stringa con i seguenti pattern:

  • Carte di credito
  • Data
  • Data ora
  • Email
  • URL dalle ancore HTML
  • Indirizzo IPv4
  • Codici ISBN
  • Indirizzo MAC
  • Numero di N cifre
  • SSN
  • Pattern di inizio e di fine
  • Ora

Per estrarre i dati in base a un pattern:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
  3. Seleziona Estrai campi > Utilizzando pattern e seleziona un'opzione, ad esempio URL.
  4. (Facoltativo) Fai clic su Mostra pattern per visualizzare l'espressione regolare per il pattern.
  5. Fai clic su Estrai.

Wrangler estrae i campi in base al pattern scelto e aggiunge la classe extract-regex-groups alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion applica la trasformazione a tutte le righe della colonna.

Nel seguente esempio, una colonna contiene un numero seguito da un indirizzo email:

Email
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Per estrarre l'indirizzo email, seleziona il pattern Email. Quando fai clic su Estrai, Wrangler conserva la colonna originale e crea una nuova colonna contenente solo gli indirizzi email:

Email Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Estrarre i dati con i delimitatori

Puoi estrarre i dati in due o più colonne in base ai seguenti delimitatori:

  • Virgola
  • TAB
  • Barra verticale
  • Spazio vuoto
  • Separatore personalizzato

Se un valore non ha il delimitatore, non viene aggiunto alcun valore al campo corrispondente nella nuova colonna.

Per estrarre valori in base a un delimitatore:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai al nome di una colonna e fai clic sull'icona arrow_drop_down freccia di espansione.
  3. Seleziona Estrai campi > Utilizza delimitatori e scegli un ad esempio Virgola.
  4. Fai clic su Estrai.

Wrangler estrae i campi in base al delimitatore selezionato e aggiunge il valore split-to-columns alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion trasforma tutti i valori nella colonna.

Nel seguente esempio, una colonna contiene più nomi separati da virgole:

ID Nome
1 Lee,Luciano,Luka
2 Mahan, Noam, Nur

In questo esempio, l'utilizzo del pattern di delimitatori di virgole estrae i valori della colonna Name originale in tre nuove colonne:

ID Nome Name_1 Nome_2 Name_3
1 Lee, Lucian, Luka Lee Lucian Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Estrare i dati in base alla posizione

Puoi estrarre parte di una stringa in base alla sua posizione nella stringa.

Per estrarre i dati in base alla posizione:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
  3. Seleziona Estrai campi > Utilizzando le posizioni. I valori delle colonne che puoi estrarre vengono visualizzati con uno sfondo blu.
  4. In una cella qualsiasi della colonna, seleziona i caratteri da estrarre.
  5. Nel campo Nome della colonna di destinazione, inserisci un nome.
  6. Fai clic su Applica.

La parte scelta del valore viene estratta da ogni riga della colonna.

Wrangler estrae i campi in base al pattern selezionato e aggiunge la variabile cut-character alla ricetta. Quando esegui la pipeline di dati, Cloud Data Fusion applica la trasformazione a tutti i valori nella colonna.

Passaggi successivi