Crea una pipeline di dati
Questa guida rapida ti mostra come fare:
- Creare un'istanza Cloud Data Fusion.
- Esegui il deployment di una pipeline di esempio fornita con Cloud Data Fusion
in esecuzione in un'istanza Compute Engine. La pipeline fa quanto segue:
- Legge un file JSON contenente i dati sui bestseller del NYT da di archiviazione ideale in Cloud Storage.
- Esegue trasformazioni sul file per analizzare e pulire i dati.
- Carica i libri più votati aggiunti l'ultima settimana e con un costo inferiore a 25 $ in BigQuery.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Data Fusion API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Data Fusion API.
Creare un'istanza Cloud Data Fusion
- Fai clic su Crea un'istanza.
- Inserisci un Nome istanza.
- Inserisci una descrizione per l'istanza.
- Inserisci la Regione in cui creare l'istanza.
- Scegli la versione di Cloud Data Fusion da utilizzare.
- Scegli la versione di Cloud Data Fusion.
- Per Cloud Data Fusion 6.2.3 e versioni successive, nel Authorization (Autorizzazione), scegli l'account di servizio Dataproc da utilizzare per eseguire la pipeline di Cloud Data Fusion Dataproc. Il valore predefinito, account Compute Engine, è sono preselezionate.
- Fai clic su Crea. Il processo di creazione dell'istanza richiede fino a 30 minuti. Mentre Cloud Data Fusion crea l'istanza, una ruota di avanzamento viene visualizzato accanto al nome dell'istanza nella pagina Istanze. Al termine, diventa un segno di spunta verde e indica che puoi iniziare a utilizzare l'istanza.
Esplorare l'interfaccia web di Cloud Data Fusion
Quando utilizzi Cloud Data Fusion, usi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion.
Nella console Google Cloud puoi eseguire queste operazioni:
- Creare un progetto nella console Google Cloud
- Crea ed elimina istanze Cloud Data Fusion
- Visualizza i dettagli dell'istanza Cloud Data Fusion
Nell'interfaccia web di Cloud Data Fusion puoi utilizzare varie pagine, come Studio o Wrangler, per utilizzare la funzionalità di Cloud Data Fusion.
Per esplorare l'interfaccia di Cloud Data Fusion, segui questi passaggi:
- Nella console Google Cloud, apri la pagina Istanze.
- Nella colonna Azioni dell'istanza, fai clic sul link Visualizza istanza.
- Nell'interfaccia web di Cloud Data Fusion, utilizza il pannello di navigazione a sinistra per accedere alla pagina desiderata.
Esegui il deployment di una pipeline di esempio
Le pipeline di esempio sono disponibili tramite l'hub Cloud Data Fusion. che ti consente di condividere pipeline, plug-in di Cloud Data Fusion riutilizzabili e soluzioni.
- Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub.
- Nel riquadro di sinistra, fai clic su Pipeline.
- Fai clic sulla pipeline della guida rapida di Cloud Data Fusion.
- Fai clic su Crea.
- Nel riquadro di configurazione della guida rapida di Cloud Data Fusion, fai clic su Fine.
Fai clic su Personalizza pipeline.
Una rappresentazione visiva della pipeline viene visualizzata nella pagina Studio. che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in per la pipeline disponibili sono elencati a sinistra e la pipeline visualizzato nell'area principale del canvas. Puoi esplorare la pipeline tenendo premuto posiziona il puntatore su ogni nodo della pipeline e fai clic su Proprietà. La del menu delle proprietà di ciascun nodo consente di visualizzare gli oggetti e le operazioni associate al nodo.
Nel menu in alto a destra, fai clic su Esegui il deployment. Questo passaggio invia la pipeline a in Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di di questa guida rapida.
Visualizza la pipeline
La pipeline di cui è stato eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi eseguire le seguenti:
- Visualizza la struttura e la configurazione della pipeline.
- Esegui la pipeline manualmente oppure configura una pianificazione o un trigger.
- Visualizza un riepilogo delle esecuzioni storiche della pipeline, inclusa l'esecuzione tempi, log e metriche.
esegui la pipeline
Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguirla.
Durante l'esecuzione di una pipeline, Cloud Data Fusion esegue quanto segue:
- Esegue il provisioning di un cluster Dataproc temporaneo
- Esegue la pipeline sul cluster utilizzando Apache Spark
- Elimina il cluster
Visualizza i risultati
La pipeline termina dopo alcuni minuti. Lo stato della pipeline diventa Riuscito e viene visualizzato il numero di record elaborati da ciascun nodo.
- Vai all'interfaccia web di BigQuery.
Per visualizzare un campione dei risultati, vai al set di dati
DataFusionQuickstart
nel tuo progetto, fai clictop_rated_inexpensive
ed esegui una query semplice. Ad esempio:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
Sostituisci PROJECT_ID con l'ID progetto.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Eliminare il set di dati BigQuery a cui è stata scritta la tua pipeline in questa guida rapida.
(Facoltativo) Elimina il progetto.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.