Crea una pipeline di dati

Questa guida rapida illustra come svolgere le seguenti operazioni:

  1. Creare un'istanza di Cloud Data Fusion.
  2. Esegui il deployment di una pipeline di esempio fornita con l'istanza di Cloud Data Fusion. La pipeline esegue quanto segue:
    1. Legge un file JSON contenente i dati sui bestseller del NYT da Cloud Storage.
    2. Esegue trasformazioni sul file per analizzare e pulire i dati.
    3. Carica su BigQuery i libri più votati aggiunti la scorsa settimana che costano meno di 25 $.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Attiva l'API Cloud Data Fusion.

    Abilita l'API

  4. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Attiva l'API Cloud Data Fusion.

    Abilita l'API

Crea un'istanza di Cloud Data Fusion

  1. Fai clic su Crea un'istanza.

    Vai a Istanze

  2. Inserisci un Nome istanza.
  3. Inserisci una descrizione per l'istanza.
  4. Inserisci la regione in cui creare l'istanza.
  5. Scegli la versione di Cloud Data Fusion da utilizzare.
  6. Scegli la versione di Cloud Data Fusion.
  7. Per Cloud Data Fusion versione 6.2.3 e successive, nel campo Autorizzazione, scegli l'account di servizio Dataproc da utilizzare per eseguire la pipeline di Cloud Data Fusion in Dataproc. Il valore predefinito, l'account Compute Engine, è preselezionato.
  8. Fai clic su Crea. Il completamento del processo di creazione dell'istanza richiede fino a 30 minuti. Mentre Cloud Data Fusion crea l'istanza, viene visualizzata una ruota di avanzamento accanto al nome dell'istanza nella pagina Istanze. Al termine, l'istanza diventa un segno di spunta verde e indica che è possibile iniziare a utilizzare l'istanza.

Quando utilizzi Cloud Data Fusion, utilizzi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion.

  • Nella console Google Cloud puoi fare quanto segue:

    • Crea un progetto nella console Google Cloud
    • Crea ed elimina istanze Cloud Data Fusion
    • Visualizza i dettagli dell'istanza di Cloud Data Fusion
  • Nell'interfaccia web di Cloud Data Fusion, puoi utilizzare varie pagine, ad esempio Studio o Wrangler, per utilizzare la funzionalità di Cloud Data Fusion.

Per esplorare l'interfaccia di Cloud Data Fusion, segui questi passaggi:

  1. Nella console Google Cloud, apri la pagina Istanze.

    Vai a Istanze

  2. Nella colonna Azioni dell'istanza, fai clic sul link Visualizza istanza.
  3. Nell'interfaccia web di Cloud Data Fusion, utilizza il pannello di navigazione a sinistra per passare alla pagina che ti interessa.

Esegui il deployment di una pipeline di esempio

Le pipeline di esempio sono disponibili tramite Hub Cloud Data Fusion, che ti consente di condividere pipeline, plug-in e soluzioni riutilizzabili di Cloud Data Fusion.

  1. Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub.
  2. Nel riquadro a sinistra, fai clic su Pipeline.
  3. Fai clic sulla pipeline della guida rapida di Cloud Data Fusion.
  4. Fai clic su Crea.
  5. Nel riquadro di configurazione della guida rapida di Cloud Data Fusion, fai clic su Fine.
  6. Fai clic su Personalizza pipeline.

    Una rappresentazione visiva della tua pipeline viene visualizzata nella pagina Studio, che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in delle pipeline disponibili sono elencati a sinistra e la pipeline viene visualizzata nell'area del canvas principale. Puoi esplorare la pipeline tenendo premuto il puntatore su ciascun nodo della pipeline e facendo clic su Proprietà. Il menu delle proprietà di ciascun nodo consente di visualizzare gli oggetti e le operazioni associate al nodo.

  7. Nel menu in alto a destra, fai clic su Esegui il deployment. Questo passaggio invia la pipeline a Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di questa guida rapida.

Esegui il deployment della pipeline

Visualizza la pipeline

La pipeline di cui hai eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi eseguire le seguenti operazioni:

  • Visualizza la struttura e la configurazione della pipeline.
  • Esegui la pipeline manualmente oppure configura una pianificazione o un trigger.
  • Visualizza un riepilogo delle esecuzioni storiche della pipeline, inclusi i tempi di esecuzione, i log e le metriche.

Copia l'account di servizio

Esegui la pipeline

Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguirla.

esegui la pipeline.

Durante l'esecuzione di una pipeline, Cloud Data Fusion effettua le seguenti operazioni:

  1. Esegue il provisioning di un cluster Dataproc temporaneo
  2. Esegue la pipeline sul cluster utilizzando Apache Spark
  3. Elimina il cluster

Visualizza i risultati

Dopo alcuni minuti, la pipeline termina. Lo stato della pipeline diventa Riuscito e viene visualizzato il numero di record elaborati da ciascun nodo.

Esecuzione della pipeline completata

  1. Vai all'interfaccia web di BigQuery.
  2. Per visualizzare un esempio dei risultati, vai al set di dati DataFusionQuickstart nel tuo progetto, fai clic sulla tabella top_rated_inexpensive ed esegui una semplice query. Ad esempio:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Sostituisci PROJECT_ID con l'ID progetto.

Visualizza risultati

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:

  1. Elimina il set di dati BigQuery in cui la pipeline ha scritto in questa guida rapida.
  2. Elimina l'istanza di Cloud Data Fusion.

  3. (Facoltativo) Elimina il progetto.

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

  • Segui un tutorial su Cloud Data Fusion
  • Scopri di più sui concetti di Cloud Data Fusion