Wrangler è uno strumento di preparazione dei dati visivo all'interno dell'interfaccia di Cloud Data Fusion Studio. Ti consente di pulire e trasformare i dati prima di utilizzarli nelle pipeline di estrazione, trasformazione e caricamento (ETL). Wrangler applica le trasformazioni su un campione dei tuoi dati in un'unica posizione (chiamata Anteprima) prima di eseguire la logica sull'intero set di dati. Questa anteprima ti consente di applicare le trasformazioni e di comprendere in che modo influiscono sull'intero set di dati.
Istruzioni Wrangler
Una direttiva è una singola istruzione utilizzata in Wrangler. Le direttive specificano come manipolare i dati, ad esempio trasformando, filtrando o eseguendo il pivot dei singoli record.
I seguenti concetti sono correlati alle direttive:
- Formula
- Una ricetta è un insieme di istruzioni. È costituito da una o più direttive.
- Passaggio di trasformazione
- Un passaggio di trasformazione è un'implementazione di un'istruzione di trasformazione dei dati che opera su un singolo record o insieme di record. Un passaggio di trasformazione può generare zero o più record dall'applicazione di una direttiva. Wrangler applica i passaggi di trasformazione nell'ordine elencato nella ricetta.
Componenti di Wrangler
Le sezioni seguenti spiegano i componenti di Wrangler in Cloud Data Fusion Studio.
Spazio di lavoro Wrangler
L'area di lavoro di Wrangler è una pagina dell'interfaccia di Cloud Data Fusion Studio in cui puoi analizzare, unire, pulire e trasformare i set di dati. Nella pagina Spazio di lavoro, puoi:
- Aggiungi i passaggi di trasformazione a una ricetta utilizzando il menu a discesa in ogni colonna.
- Visualizza o elimina i passaggi di una ricetta selezionando la scheda Passaggi di trasformazione.
- Scopri le colonne con campi vuoti e altre informazioni controllando la barra Qualità dei dati.
- Visualizza lo schema del set di dati facendo clic su Altro.
- Crea una pipeline di dati con un plug-in di origine per il set di dati e la trasformazione Wrangler con la ricetta contenente i passaggi di trasformazione, che vengono eseguiti quando viene eseguita la pipeline.
Modalità risparmio energetico Wrangler (CLI)
Per specificare le direttive utilizzando la sintassi dichiarativa, utilizza la modalità Power (CLI). È utile per le seguenti attività:
- Utilizzo di direttive non disponibili nell'interfaccia di Studio
- Aggiunta di direttive definite dall'utente
- Applicazione di una direttiva a più colonne
Per utilizzare la modalità Power di Wrangler, inserisci le istruzioni nella barra nera in fondo alla scheda Dati di Wrangler.
Scheda Approfondimenti di Wrangler
Puoi utilizzare la scheda Approfondimenti nella pagina di Wrangler per eseguire la scoperta dei dati su un set di dati.
Limitazioni
- Wrangler è supportato solo per le pipeline ETL batch.
- Wrangler applica la trasformazione solo ai dati di esempio. Questi dati di esempio sono limitati ai primi 1000 record.
- Wrangler richiede la creazione di connessioni con l'origine. Per scoprire di più, consulta Creare e gestire le connessioni.
- Wrangler richiede sempre che sia aperta almeno un'area di lavoro Wrangler.
- Il clic sul pulsante Wrangler nella trasformazione Wrangler non è supportato.
Vai a Wrangler in Cloud Data Fusion
Puoi accedere a Wrangler in due modi dall'interfaccia di Cloud Data Fusion Studio:
- Per aprire lo spazio di lavoro di Wrangler di Cloud Data Fusion, vai a Studio di Cloud Data Fusion e fai clic su Wrangler.
- Per configurare le proprietà Wrangler, vai a Cloud Data Fusion Studio e fai clic su Studio > Trasformazioni > Wrangler.
Connettiti a un'origine dati
Wrangler supporta varie origini dati, come BigQuery, Cloud Storage e database esterni (con configurazione aggiuntiva). Per utilizzare Wrangler, devi creare una connessione con l'origine.
Per creare la connessione, vai all'elenco Connessioni e seleziona la connessione all'origine dati. Per scoprire di più, consulta la pagina Creare e gestire le connessioni.
Esplorare ed esaminare l'anteprima dei dati
Wrangler mostra un campione dei dati (in genere 1000 righe) per l'ispezione. Puoi ottenere una panoramica dello schema dei dati, inclusi i tipi di dati e le statistiche di base.
Applicare le direttive
Wrangler offre una serie di istruzioni integrate per le attività comuni di pulizia dei dati.
- Trascina la direttiva scelta in una colonna specifica o nella finestra di anteprima dei dati.
- Ogni direttiva ha opzioni di configurazione per personalizzare il relativo comportamento.
Per ulteriori informazioni, consulta le istruzioni a riga di comando di Wrangler.
Visualizzare l'anteprima dei risultati della trasformazione
Man mano che applichi le direttive, la finestra di anteprima dei dati si aggiorna dinamicamente per riflettere le modifiche. In questo modo puoi vedere l'impatto immediato di ogni trasformazione sui tuoi dati.
Perfeziona e esegui l'iterazione
Per perfezionare la procedura di gestione dei dati, continua ad aggiungere direttive, modificare le configurazioni e rivedere l'anteprima.
L'interfaccia visiva di Wrangler ti aiuta a eseguire esperimenti e a garantire che le trasformazioni producano il risultato previsto.
Aggiungere trasformazioni a una pipeline
Sebbene Wrangler non sia una soluzione di archiviazione permanente, Cloud Data Fusion offre modi per acquisire la logica di trasformazione:
Crea una pipeline. Dallo spazio di lavoro Wrangler, converti le trasformazioni Wrangler in una pipeline Cloud Data Fusion seguendo questi passaggi:
- Fai clic su Crea pipeline.
- Seleziona Batch pipeline (Pipeline batch). Si apre la pagina Pipeline Studio con una pipeline che contiene un'origine e una trasformazione Wrangler.
Applica trasformazioni. Se utilizzi il plug-in Wrangler nella pagina Studio, converti le trasformazioni di Wrangler in una pipeline Cloud Data Fusion facendo clic su Applica.
Modificare le ricette
Quando utilizzi lo spazio di lavoro Wrangler per creare una trasformazione Wrangler, dopo averla aggiunta a una pipeline, ti consigliamo di utilizzare l'interfaccia di Wrangler per aggiungere o modificare le ricette.
Nella trasformazione Wrangler, se modifichi manualmente la ricetta o aggiungi nuovi passaggi alla ricetta e le modifiche influiscono sullo schema di output, devi aggiornare manualmente lo schema di output nella trasformazione Wrangler in modo che corrisponda alle modifiche nella ricetta. Solo le ricette create o modificate nello spazio di lavoro Wrangler creano e aggiornano automaticamente lo schema di output nella trasformazione Wrangler.
Per modificare una ricetta nella trasformazione di Wrangler creata nell'interfaccia web di Wrangler:
- Vai al nodo Wrangler nella pipeline e fai clic su Properties (Proprietà).
- Fai clic su Wrangler.
- Modificare o aggiungere una nuova ricetta.
- Fai clic su Applica.
Passaggi successivi
- Scopri di più sulle istruzioni della CLI di Wrangler.