Creare una pipeline di dati utilizzando Cloud Data Fusion

Crea una pipeline di dati

Questa guida rapida illustra come:

  1. Creare un'istanza di Cloud Data Fusion.
  2. Esegui il deployment di una pipeline di esempio fornita con la tua istanza di Cloud Data Fusion. La pipeline esegue quanto segue:
    1. Legge un file JSON contenente i dati sui prodotti più venduti in NYT da Cloud Storage.
    2. Esegue trasformazioni sul file per analizzare e pulire i dati.
    3. Carica in BigQuery i libri più votati aggiunti nell'ultima settimana che costano meno di 25 $.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Attiva l'API Cloud Data Fusion.

    Abilita l'API

  4. Nella pagina del selettore dei progetti in Google Cloud Console, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  5. Attiva l'API Cloud Data Fusion.

    Abilita l'API

Creare un'istanza di Cloud Data Fusion

  1. Fai clic su Crea un'istanza.

    Vai a Istanze

  2. Inserisci un Nome istanza.
  3. Inserisci una Descrizione per l'istanza.
  4. Inserisci l'area geografica in cui creare l'istanza.
  5. Scegli la versione di Cloud Data Fusion da utilizzare.
  6. Scegli la Edizione di Cloud Data Fusion.
  7. Per Cloud Data Fusion 6.2.3 e versioni successive, nel campo Autorizzazione, scegli l'account di servizio Dataproc da utilizzare per eseguire la pipeline di Cloud Data Fusion in Dataproc. Il valore predefinito, l'account Compute Engine, è preselezionato.
  8. Fai clic su Crea. Il completamento della procedura di creazione dell'istanza richiede fino a 30 minuti. Durante la creazione dell'istanza di Cloud Data Fusion, nella pagina Istanze viene visualizzata una ruota di avanzamento accanto al nome. Dopo il completamento, diventa un segno di spunta verde e indica che puoi iniziare a utilizzare l'istanza.

Quando utilizzi Cloud Data Fusion, utilizzi sia la console che l'interfaccia utente separata di Cloud Data Fusion.

  • Nella console puoi creare un progetto per la console, creare ed eliminare le istanze Cloud Data Fusion e visualizzare i dettagli delle istanze Cloud Data Fusion.

  • Nell'interfaccia utente web di Cloud Data Fusion, puoi utilizzare le varie pagine, come Studio o Wrangler, per utilizzare le funzionalità di Cloud Data Fusion.

Per esplorare l'interfaccia utente di Cloud Data Fusion, segui questi passaggi:

  1. Nella console, apri la pagina Istanze.

    Vai a Istanze

  2. Nella colonna Azioni, fai clic sul link Visualizza istanza.
  3. Nell'interfaccia utente web di Cloud Data Fusion, utilizza il pannello di navigazione a sinistra per accedere alla pagina che ti serve.

Esegui il deployment di una pipeline di esempio

Le pipeline di esempio sono disponibili tramite Hub di Cloud Data Fusion, che ti consente di condividere pipeline, plug-in e soluzioni di Cloud Data Fusion riutilizzabili.

  1. Nell'interfaccia utente web di Cloud Data Fusion, fai clic su Hub.
  2. Nel riquadro a sinistra, fai clic su Pipelines.
  3. Fai clic sulla pipeline della guida rapida di Cloud Data Fusion.
  4. Fai clic su Crea.
  5. Nel riquadro della configurazione rapida di Cloud Data Fusion, fai clic su Fine.
  6. Fai clic su Personalizza pipeline. Una rappresentazione visiva della tua pipeline viene visualizzata nella pagina Studio, che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in della pipeline disponibili sono elencati a sinistra, mentre la pipeline viene visualizzata nell'area principale della tela. Puoi esplorare la pipeline tenendo il puntatore su ogni nodo di pipeline e facendo clic su Proprietà. Il menu delle proprietà per ciascun nodo consente di visualizzare gli oggetti e le operazioni associati al nodo.
  7. Nel menu in alto a destra, fai clic su Deploy. La pipeline viene inviata a Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di questa guida rapida.
Eseguire il deployment della pipeline.

Visualizza la tua pipeline

La pipeline di cui hai eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi:

  • Visualizza la struttura e la configurazione della pipeline.
  • Esegui manualmente la pipeline o configura una pianificazione o un trigger.
  • Visualizza un riepilogo delle esecuzioni storiche della pipeline, inclusi tempi di esecuzione, log e metriche.
Copia l'account di servizio.

Eseguire la pipeline

Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguire la pipeline.

Esegui la pipeline.

Visualizza i risultati

Dopo qualche minuto, la pipeline termina. Lo stato della pipeline passa a Riuscito e viene visualizzato il numero di record elaborati da ogni nodo.

Esecuzione della pipeline completata.
  1. Vai alla UI di BigQuery.
  2. Per visualizzare un esempio dei risultati, vai al set di dati DataFusionQuickstart nel tuo progetto, fai clic sulla tabella top_rated_inexpensive, quindi esegui una semplice query, ad esempio: SELECT * FROM <var>PROJECT_ID<var>.GCPQuickStart.top_rated_inexpensive LIMIT 10

    Sostituisci PROJECT_ID con l'ID del progetto.

Visualizza risultati.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

  1. Elimina il set di dati BigQuery in cui è stata scritta la pipeline in questa guida rapida.
  2. Elimina l'istanza Cloud Data Fusion.

  3. (Facoltativo) Elimina il progetto.

    1. Nella console, vai alla pagina Gestisci risorse.

      Vai a Gestisci risorse

    2. Nell'elenco dei progetti, seleziona il progetto da eliminare, quindi fai clic su Elimina.
    3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi