Panoramica di Wrangler

Wrangler è uno strumento visivo di preparazione dei dati all'interno dell'interfaccia di Cloud Data Fusion Studio. Consente di pulire e trasformare i dati prima di utilizzarli nelle pipeline di estrazione, trasformazione e caricamento (ETL). Wrangler applica le trasformazioni su un campione dei dati in un'unica posizione (chiamata anteprima) prima di eseguire la logica sull'intero set di dati. Questa anteprima consente di applicare le trasformazioni e comprendere come influiscono sull'intero set di dati.

Istruzioni Wrangler

Una direttiva è una singola istruzione utilizzata all'interno di Wrangler. Le istruzioni specificano come manipolare i dati, ad esempio trasformando, filtrando o ruotando i singoli record.

I seguenti concetti sono relativi alle direttive:

Formula
Una ricetta è un insieme di istruzioni. È formato da una o più istruzioni.
Passaggio di trasformazione
Un passaggio di trasformazione è l'implementazione di un'istruzione di trasformazione dei dati che opera su un singolo record o insieme di record. Un passaggio di trasformazione può generare zero o più record in seguito all'applicazione di un'istruzione. Wrangler applica i passaggi di trasformazione nell'ordine elencato nella formula.

Componenti di Wrangler

Le sezioni seguenti spiegano i componenti di Wrangler in Cloud Data Fusion Studio.

Area di lavoro di Wrangler

L'area di lavoro Wrangler è una pagina dell'interfaccia di Cloud Data Fusion Studio in cui analizzi, combini, ripulisci e trasformi i set di dati. Nella pagina Area di lavoro puoi eseguire queste operazioni:

  • Aggiungi i passaggi di trasformazione a una formula utilizzando il menu a discesa in ogni colonna.
  • Visualizza o elimina i passaggi di una formula selezionando la scheda Passaggi di trasformazione.
  • Scopri le colonne con campi vuoti e altre informazioni controllando la barra Qualità dei dati.
  • Visualizza lo schema del set di dati facendo clic su Altro.
  • Creare una pipeline di dati con un plug-in di origine per il set di dati e la trasformazione Wrangler con la formula contenente i passaggi di trasformazione, che vengono eseguiti durante l'esecuzione della pipeline.

Modalità Wrangler Power (CLI)

Per specificare le istruzioni utilizzando la sintassi dichiarativa, utilizza la modalità di alimentazione (CLI). È utile per le attività seguenti:

  • Utilizzare istruzioni che non sono disponibili nell'interfaccia di Studio
  • Aggiunta di istruzioni definite dall'utente
  • Applicazione di un'istruzione a più colonne

Per utilizzare la modalità di alimentazione di Wrangler, inserisci le istruzioni nella barra nera nella parte inferiore della scheda Dati di Wrangler.

Scheda Approfondimenti di Wrangler

Puoi utilizzare la scheda Insights della pagina Wrangler per eseguire il rilevamento dati su un set di dati.

Limitazioni

  • Wrangler è supportato solo per pipeline ETL in modalità batch.
  • Wrangler applica la trasformazione solo ai dati campione. Questi dati di esempio sono limitati ai primi 1000 record.
  • Wrangler richiede la creazione delle connessioni con l'origine. Per scoprire di più, consulta Creare e gestire connessioni.
  • Wrangler richiede sempre almeno un'area di lavoro di Wrangler aperta.
  • Non è possibile fare clic sul pulsante Wrangler nella trasformazione Wrangler.

Puoi accedere a Wrangler in due modi dall'interfaccia di Cloud Data Fusion Studio:

  • Per aprire l'area di lavoro Wrangler Cloud Data Fusion, vai a Cloud Data Fusion Studio e fai clic su Wrangler.
  • Per configurare le proprietà Wrangler, vai a Cloud Data Fusion Studio e fai clic su Studio > Trasformazioni > Wrangler.

Connettersi a un'origine dati

Wrangler supporta varie origini dati, come BigQuery, Cloud Storage e database esterni (con configurazione aggiuntiva). Per utilizzare Wrangler, devi creare una connessione con l'origine.

Per creare la connessione, vai all'elenco Connessioni e seleziona la connessione all'origine dati. Per maggiori informazioni, consulta Creare e gestire le connessioni.

Esplora e visualizza l'anteprima dei dati

Wrangler visualizza un campione dei dati (in genere 1000 righe) per l'ispezione. Puoi ottenere una panoramica dello schema dei dati, inclusi i tipi di dati e le statistiche di base.

Applica istruzioni

Wrangler offre una serie di direttive integrate per le attività di wrangling più comuni.

  • Trascina l'istruzione scelta in una colonna specifica o nella finestra di anteprima dei dati.
  • Ogni istruzione ha opzioni di configurazione per personalizzarne il comportamento.

Per maggiori informazioni, vedi Istruzioni a riga di comando di Wrangler.

Visualizza l'anteprima dei risultati della trasformazione

Man mano che applichi le istruzioni, la finestra di anteprima dei dati si aggiorna in modo dinamico per riflettere le modifiche. Ciò ti consente di vedere l'impatto immediato di ogni trasformazione sui tuoi dati.

Perfeziona e ottimizza

Per perfezionare il processo di wrangling dei dati, continua ad aggiungere istruzioni, a modificare le configurazioni e a rivedere l'anteprima.

L'interfaccia visiva di Wrangler ti aiuta a sperimentare e assicurarti che le trasformazioni producano i risultati previsti.

Aggiungi trasformazioni a una pipeline

Sebbene Wrangler non sia una soluzione di archiviazione permanente, Cloud Data Fusion offre diversi modi per acquisire la logica di wrangling:

  • Crea una pipeline. Dall'area di lavoro Wrangler, converti le trasformazioni Wrangler in una pipeline Cloud Data Fusion seguendo questi passaggi:

    1. Fai clic su Crea pipeline.
    2. Seleziona Batch pipeline (Pipeline batch). La pagina Pipeline Studio si apre con una pipeline che include un'origine e una trasformazione Wrangler.
  • Applica le trasformazioni. Se utilizzi il plug-in Wrangler nella pagina Studio, converti le trasformazioni di Wrangler in una pipeline Cloud Data Fusion facendo clic su Applica.

Modifica formule

Quando utilizzi l'area di lavoro di Wrangler per creare una trasformazione di Wrangler, dopo aver aggiunto la trasformazione di Wrangler a una pipeline, ti consigliamo di utilizzare l'interfaccia di Wrangler per aggiungere o modificare le formule.

Nella trasformazione di Wrangler, se modifichi manualmente la formula o aggiungi nuovi passaggi alla formula e le modifiche influiscono sullo schema di output, devi aggiornare manualmente lo schema di output nella trasformazione Wrangler in modo che corrisponda alle modifiche nella formula. Solo le formule create o modificate nell'area di lavoro Wrangler creano e aggiorneranno automaticamente lo schema di output nella trasformazione Wrangler.

Per modificare una formula nella trasformazione Wrangler creata nell'interfaccia web di Wrangler, segui questi passaggi:

  1. Vai al nodo Wrangler nella pipeline e fai clic su Proprietà.
  2. Fai clic su Wrangler.
  3. Modificare o aggiungere una nuova formula.
  4. Fai clic su Applica.

Passaggi successivi