Crea una pipeline di dati

Questa guida rapida ti mostra come fare:

  1. Creare un'istanza Cloud Data Fusion.
  2. Esegui il deployment di una pipeline di esempio fornita con Cloud Data Fusion in esecuzione in un'istanza Compute Engine. La pipeline fa quanto segue:
    1. Legge un file JSON contenente i dati sui bestseller del NYT da di archiviazione ideale in Cloud Storage.
    2. Esegue trasformazioni sul file per analizzare e pulire i dati.
    3. Carica i libri più votati aggiunti l'ultima settimana e con un costo inferiore a 25 $ in BigQuery.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Enable the Cloud Data Fusion API.

    Enable the API

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Enable the Cloud Data Fusion API.

    Enable the API

Creare un'istanza Cloud Data Fusion

  1. Fai clic su Crea un'istanza.

    Vai a Istanze

  2. Inserisci un Nome istanza.
  3. Inserisci una descrizione per l'istanza.
  4. Inserisci la Regione in cui creare l'istanza.
  5. Scegli la versione di Cloud Data Fusion da utilizzare.
  6. Scegli la versione di Cloud Data Fusion.
  7. Per Cloud Data Fusion 6.2.3 e versioni successive, nel Authorization (Autorizzazione), scegli l'account di servizio Dataproc da utilizzare per eseguire la pipeline di Cloud Data Fusion Dataproc. Il valore predefinito, account Compute Engine, è sono preselezionate.
  8. Fai clic su Crea. Il processo di creazione dell'istanza richiede fino a 30 minuti. Mentre Cloud Data Fusion crea l'istanza, una ruota di avanzamento viene visualizzato accanto al nome dell'istanza nella pagina Istanze. Al termine, diventa un segno di spunta verde e indica che puoi iniziare a utilizzare l'istanza.

Quando utilizzi Cloud Data Fusion, usi sia la console Google Cloud sia l'interfaccia web separata di Cloud Data Fusion.

  • Nella console Google Cloud puoi eseguire queste operazioni:

    • Creare un progetto nella console Google Cloud
    • Crea ed elimina istanze Cloud Data Fusion
    • Visualizza i dettagli dell'istanza Cloud Data Fusion
  • Nell'interfaccia web di Cloud Data Fusion puoi utilizzare varie pagine, come Studio o Wrangler, per utilizzare la funzionalità di Cloud Data Fusion.

Per esplorare l'interfaccia di Cloud Data Fusion, segui questi passaggi:

  1. Nella console Google Cloud, apri la pagina Istanze.

    Vai a Istanze

  2. Nella colonna Azioni dell'istanza, fai clic sul link Visualizza istanza.
  3. Nell'interfaccia web di Cloud Data Fusion, utilizza il pannello di navigazione a sinistra per accedere alla pagina desiderata.

Esegui il deployment di una pipeline di esempio

Le pipeline di esempio sono disponibili tramite l'hub Cloud Data Fusion. che ti consente di condividere pipeline, plug-in di Cloud Data Fusion riutilizzabili e soluzioni.

  1. Nell'interfaccia web di Cloud Data Fusion, fai clic su Hub.
  2. Nel riquadro di sinistra, fai clic su Pipeline.
  3. Fai clic sulla pipeline della guida rapida di Cloud Data Fusion.
  4. Fai clic su Crea.
  5. Nel riquadro di configurazione della guida rapida di Cloud Data Fusion, fai clic su Fine.
  6. Fai clic su Personalizza pipeline.

    Una rappresentazione visiva della pipeline viene visualizzata nella pagina Studio. che è un'interfaccia grafica per lo sviluppo di pipeline di integrazione dei dati. I plug-in per la pipeline disponibili sono elencati a sinistra e la pipeline visualizzato nell'area principale del canvas. Puoi esplorare la pipeline tenendo premuto posiziona il puntatore su ogni nodo della pipeline e fai clic su Proprietà. La del menu delle proprietà di ciascun nodo consente di visualizzare gli oggetti e le operazioni associate al nodo.

  7. Nel menu in alto a destra, fai clic su Esegui il deployment. Questo passaggio invia la pipeline a in Cloud Data Fusion. Eseguirai la pipeline nella sezione successiva di di questa guida rapida.

esegui il deployment della pipeline

Visualizza la pipeline

La pipeline di cui è stato eseguito il deployment viene visualizzata nella visualizzazione dei dettagli della pipeline, dove puoi eseguire le seguenti:

  • Visualizza la struttura e la configurazione della pipeline.
  • Esegui la pipeline manualmente oppure configura una pianificazione o un trigger.
  • Visualizza un riepilogo delle esecuzioni storiche della pipeline, inclusa l'esecuzione tempi, log e metriche.

Copia l'account di servizio

esegui la pipeline

Nella visualizzazione dei dettagli della pipeline, fai clic su Esegui per eseguirla.

esegui la pipeline.

Durante l'esecuzione di una pipeline, Cloud Data Fusion esegue quanto segue:

  1. Esegue il provisioning di un cluster Dataproc temporaneo
  2. Esegue la pipeline sul cluster utilizzando Apache Spark
  3. Elimina il cluster

Visualizza i risultati

La pipeline termina dopo alcuni minuti. Lo stato della pipeline diventa Riuscito e viene visualizzato il numero di record elaborati da ciascun nodo.

Esecuzione della pipeline completata

  1. Vai all'interfaccia web di BigQuery.
  2. Per visualizzare un campione dei risultati, vai al set di dati DataFusionQuickstart nel tuo progetto, fai clic top_rated_inexpensive ed esegui una query semplice. Ad esempio:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Sostituisci PROJECT_ID con l'ID progetto.

Visualizza risultati

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

  1. Eliminare il set di dati BigQuery a cui è stata scritta la tua pipeline in questa guida rapida.
  2. Elimina l'istanza Cloud Data Fusion.

  3. (Facoltativo) Elimina il progetto.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Passaggi successivi

  • Segui un tutorial su Cloud Data Fusion
  • Scopri di più sui concetti di Cloud Data Fusion