Wrangler è uno strumento di preparazione dei dati visivo all'interno dell'interfaccia di Cloud Data Fusion Studio. Ti consente di pulire e trasformare i dati prima di utilizzarli Estrai, trasforma e carica le pipeline (ETL). Wrangler applica le trasformazioni su una un campione di dati in una posizione (denominata Anteprima) prima di eseguire la logica sull'intero set di dati. Questa anteprima ti consente di applicare le trasformazioni e di comprendere in che modo influiscono sull'intero set di dati.
Istruzioni Wrangler
Una direttiva è una singola istruzione utilizzata all'interno di Wrangler. Le direttive specificano come manipolare i dati, ad esempio trasformando, filtrando o eseguendo il pivot dei singoli record.
I seguenti concetti sono relativi alle direttive:
- Formula
- Una ricetta è un insieme di istruzioni. È costituito da una o più direttive.
- Passaggio di trasformazione
- Un passaggio di trasformazione è l'implementazione di un'istruzione di trasformazione dei dati, che operano su un singolo record o insieme di record. Un passaggio di trasformazione può per generare zero o più record per l'applicazione di un'istruzione. Wrangler applica i passaggi di trasformazione nell'ordine elencato nella formula.
Componenti di Wrangler
Le sezioni seguenti spiegano i componenti di Wrangler in Cloud Data Fusion Studio.
Area di lavoro di Wrangler
L'area di lavoro Wrangler è una pagina dell'interfaccia di Cloud Data Fusion Studio di analisi, combinazione, pulizia e trasformazione dei set di dati. Nella pagina Spazio di lavoro, puoi:
- Aggiungi i passaggi di trasformazione a una ricetta utilizzando il menu a discesa in ogni colonna.
- Per visualizzare o eliminare i passaggi di una formula, seleziona Passaggi di trasformazione .
- Scopri le colonne con campi vuoti e altre informazioni selezionando la Barra della qualità dei dati.
- Visualizza lo schema del set di dati facendo clic su Altro.
- Crea una pipeline di dati con un plug-in di origine per il set di dati e la trasformazione di Wrangler con la ricetta contenente i passaggi di trasformazione, che vengono eseguiti quando viene eseguita la pipeline.
Modalità Wrangler Power (CLI)
Per specificare le istruzioni utilizzando la sintassi dichiarativa, utilizza la modalità di alimentazione (CLI). È utile per le seguenti attività:
- Utilizzare istruzioni che non sono disponibili nell'interfaccia di Studio
- Aggiunta di direttive definite dall'utente
- Applicazione di una direttiva a più colonne
Per utilizzare la modalità Power di Wrangler, inserisci le istruzioni nella barra nera in fondo alla scheda Dati di Wrangler.
Scheda Approfondimenti di Wrangler
Puoi utilizzare la scheda Approfondimenti della pagina Wrangler per eseguire il rilevamento dei dati su un set di dati.
Limitazioni
- Wrangler è supportato solo per pipeline ETL in modalità batch.
- Wrangler applica la trasformazione solo ai dati campione. Questi dati di esempio sono limitati ai primi 1000 record.
- Wrangler richiede la creazione delle connessioni con l'origine. Per maggiori informazioni le informazioni, vedi Creazione e gestione delle connessioni.
- Wrangler richiede sempre almeno un'area di lavoro di Wrangler aperta.
- Il clic sul pulsante Wrangler nella trasformazione Wrangler non è supportato.
Vai a Wrangler in Cloud Data Fusion
Puoi accedere a Wrangler in due modi dall'interfaccia di Cloud Data Fusion Studio:
- Per aprire lo spazio di lavoro di Wrangler di Cloud Data Fusion, vai a Studio di Cloud Data Fusion e fai clic su Wrangler.
- Per configurare le proprietà Wrangler, vai a Cloud Data Fusion Studio e fai clic su Studio > Trasformazioni > Wrangler.
Connettersi a un'origine dati
Wrangler supporta varie origini dati, come BigQuery, Cloud Storage e database esterni (con configurazione aggiuntiva). Per utilizzare Wrangler, devi creare una connessione con l'origine.
Per creare la connessione, vai all'elenco Connections (Connessioni) e seleziona la connessione all'origine dati. Per ulteriori informazioni, vedi Creazione e gestione delle connessioni.
Esplorare ed esaminare l'anteprima dei dati
Wrangler visualizza un campione dei dati (in genere 1000 righe) per l'ispezione. Puoi ottenere una panoramica dello schema dei dati, inclusi i tipi di dati e le statistiche.
Applicare le direttive
Wrangler offre una serie di direttive integrate per il wrangling più comune dei dati. attività di machine learning.
- Trascina l'istruzione scelta su una colonna specifica o sui dati finestra di anteprima.
- Ogni direttiva ha opzioni di configurazione per personalizzare il relativo comportamento.
Per ulteriori informazioni, consulta le istruzioni a riga di comando di Wrangler.
Visualizza l'anteprima dei risultati della trasformazione
Quando applichi le istruzioni, la finestra di anteprima dei dati si aggiorna dinamicamente per riflettere le modifiche. In questo modo puoi vedere l'impatto immediato di ogni trasformazione sui tuoi dati.
Perfeziona e esegui l'iterazione
Per perfezionare la procedura di gestione dei dati, continua ad aggiungere direttive, modificare le configurazioni e rivedere l'anteprima.
L'interfaccia visiva di Wrangler ti aiuta a sperimentare e garantire che i tuoi trasformazioni producono il risultato atteso.
Aggiungere trasformazioni a una pipeline
Sebbene Wrangler non sia una soluzione di archiviazione permanente, Cloud Data Fusion offre diversi modi per acquisire la logica di wrangling:
Crea una pipeline. Dall'area di lavoro di Wrangler, converti Wrangler in una pipeline Cloud Data Fusion seguendo queste passaggi:
- Fai clic su Crea pipeline.
- Seleziona Batch pipeline (Pipeline batch). La pagina Pipeline Studio si apre con una con una pipeline di origine e una trasformazione Wrangler.
Applica trasformazioni. Se utilizzi il plug-in Wrangler sulla Studio, converti le trasformazioni di Wrangler in un Pipeline Cloud Data Fusion facendo clic su Applica.
Modificare le ricette
Quando utilizzi lo spazio di lavoro Wrangler per creare una trasformazione Wrangler, dopo averla aggiunta a una pipeline, ti consigliamo di utilizzare l'interfaccia di Wrangler per aggiungere o modificare le ricette.
Nella trasformazione di Wrangler, se modifichi manualmente la formula o aggiungi nuovi passaggi alla formula e le modifiche influiscono sullo schema di output, devi aggiornare manualmente lo schema di output nella trasformazione Wrangler in modo che corrisponda alle modifiche la ricetta. Solo le ricette create o modificate nello spazio di lavoro Wrangler generano e aggiornano automaticamente lo schema di output nella trasformazione Wrangler.
Modificare una formula nella trasformazione Wrangler creata in Wrangler. a riga di comando, procedi nel seguente modo:
- Vai al nodo Wrangler nella pipeline e fai clic su Proprietà.
- Fai clic su Wrangler.
- Modificare o aggiungere una nuova formula.
- Fai clic su Applica.
Passaggi successivi
- Scopri di più sulle direttive CLI di Wrangler.