Crea una pipeline di dati

Questa guida rapida illustra come:

  1. Creare un'istanza Cloud Data Fusion.
  2. Esegui il deployment di una pipeline di esempio fornita con l'istanza Cloud Data Fusion. La pipeline esegue le seguenti operazioni:
    1. Legge un file JSON contenente i dati dei bestseller del New York Times da Cloud Storage.
    2. Esegue trasformazioni sul file per analizzare e pulire i dati.
    3. Carica in BigQuery i libri con le valutazioni più alte aggiunti nell'ultima settimana e che costano meno di 25 $.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Enable the API

Creare un'istanza Cloud Data Fusion

  1. Fai clic su Crea un'istanza.

    Vai a Istanze

  2. Inserisci un nome istanza.
  3. Inserisci una Descrizione per l'istanza.
  4. Inserisci la Regione in cui creare l'istanza.
  5. Scegli la versione di Cloud Data Fusion da utilizzare.
  6. Scegli la versione di Cloud Data Fusion.
  7. Per le versioni Cloud Data Fusion 6.2.3 e successive, nel campo Autorizzazione, scegli l'account di servizio Dataproc da utilizzare per eseguire la pipeline Cloud Data Fusion in Dataproc. Il valore predefinito, Account Compute Engine, è preselezionato.
  8. Fai clic su Crea. Il processo di creazione dell'istanza richiede fino a 30 minuti. Mentre Cloud Data Fusion crea l'istanza, accanto al nome dell'istanza nella pagina Istanze viene visualizzata una barra di avanzamento. Al termine, diventa un segno di spunta verde e indica che puoi iniziare a utilizzare l'istanza.

Quando utilizzi Cloud Data Fusion, usi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion.

  • Nella console Google Cloud puoi:

    • Creare un progetto nella console Google Cloud
    • Creare ed eliminare istanze Cloud Data Fusion
    • Visualizza i dettagli dell'istanza Cloud Data Fusion
  • Nell'interfaccia web di Cloud Data Fusion puoi utilizzare varie pagine, come Studio o Wrangler, per utilizzare la funzionalità di Cloud Data Fusion.

Per navigare nell'interfaccia di Cloud Data Fusion:

  1. Nella console Google Cloud, apri la pagina Istanze.

    Vai a Istanze

  2. Nella colonna Azioni dell'istanza, fai clic sul link Visualizza istanza.
  3. Nell'interfaccia web di Cloud Data Fusion, utilizza il riquadro di navigazione a sinistra per accedere alla pagina che ti serve.

Esegui il deployment di una pipeline di esempio

Le pipeline di esempio sono disponibili tramite l'hub Cloud Data Fusion, che consente di condividere pipeline, plug-in e soluzioni Cloud Data Fusion riutilizzabili.

  1. Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub.
  2. Nel riquadro a sinistra, fai clic su Pipeline.
  3. Fai clic sulla pipeline Guida rapida di Cloud Data Fusion.
  4. Fai clic su Crea.
  5. Nel riquadro di configurazione della configurazione rapida di Cloud Data Fusion, fai clic su Fine.
  6. Fai clic su Personalizza pipeline.

    Nella pagina Studio viene visualizzata una rappresentazione visiva della pipeline, che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in della pipeline disponibili sono elencati a sinistra e la pipeline viene visualizzata nell'area del canvas principale. Puoi esplorare la pipeline tenendo il cursore sopra ciascun nodo della pipeline e facendo clic su Proprietà. Il menu delle proprietà di ciascun nodo ti consente di visualizzare gli oggetti e le operazioni associati al nodo.

  7. Nel menu in alto a destra, fai clic su Esegui il deployment. Questo passaggio invia la pipeline a Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di questa guida rapida.

Esegui il deployment della pipeline

Visualizza la pipeline

La pipeline di cui è stato eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi svolgere le seguenti operazioni:

  • Visualizza la struttura e la configurazione della pipeline.
  • Esegui la pipeline manualmente o configura una pianificazione o un attivatore.
  • Visualizza un riepilogo delle esecuzioni storiche della pipeline, inclusi tempi di esecuzione, log e metriche.

Copia l'account di servizio

Esegui la pipeline

Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguire la pipeline.

esegui la pipeline.

Quando esegui una pipeline, Cloud Data Fusion esegue le seguenti operazioni:

  1. Esegue il provisioning di un cluster Dataproc temporaneo
  2. Esegue la pipeline sul cluster utilizzando Apache Spark
  3. Elimina il cluster

Visualizza i risultati

Dopo alcuni minuti, la pipeline termina. Lo stato della pipeline diventa Succeeded (Eseguita) e viene visualizzato il numero di record elaborati da ciascun nodo.

Esecuzione della pipeline completata

  1. Vai all'interfaccia web di BigQuery.
  2. Per visualizzare un esempio dei risultati, vai al set di dati DataFusionQuickstart nel tuo progetto, fai clic sulla tabella top_rated_inexpensive ed esegui una semplice query. Ad esempio:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Sostituisci PROJECT_ID con l'ID progetto.

Visualizza risultati

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate su questa pagina, segui questi passaggi.

  1. Elimina il set di dati BigQuery in cui la pipeline ha scritto in questa guida introduttiva.
  2. Elimina l'istanza Cloud Data Fusion.

  3. (Facoltativo) Elimina il progetto.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi