Introduzione a Cloud Data Fusion: Studio

Questa pagina presenta Cloud Data Fusion: Studio, che è un editor visivo un'interfaccia clic e trascina per creare pipeline di dati da una libreria di e un'interfaccia in cui configuri, esegui e gestisci le pipeline. La creazione di una pipeline in Studio in genere segue questa procedura:

  1. Connettiti a un'origine dati locale o cloud.
  2. Prepara e trasforma i dati.
  3. Connettiti alla destinazione.
  4. Testa la pipeline.
  5. Esegui la pipeline.
  6. Pianifica e attiva le pipeline.

Dopo aver progettato ed eseguito la pipeline, puoi gestirla in Pagina Pipeline Studio di Cloud Data Fusion:

  • Riutilizza le pipeline parametrizzandone le preferenze e gli argomenti di runtime.
  • Gestisci l'esecuzione della pipeline personalizzando i profili di calcolo, gestendo delle risorse e perfezionando le prestazioni della pipeline.
  • Gestisci il ciclo di vita delle pipeline modificandole.
  • Gestisci il controllo del codice sorgente della pipeline utilizzando l'integrazione di Git.

Percorso dell'utente in Cloud Data Fusion Studio

Prima di iniziare

Cloud Data Fusion: panoramica di Studio

Studio include i seguenti componenti.

Amministrazione

Cloud Data Fusion ti consente di avere spazi dei nomi in ogni istanza. In Studio, gli amministratori possono gestire tutti gli spazi dei nomi in modo centralizzato o ogni spazio dei nomi singolarmente.

Studio fornisce i seguenti controlli amministratore:

Amministrazione di sistema
Il modulo Amministratore sistema di Studio ti consente di creare nuovi spazi dei nomi e definire le configurazioni centrali del profilo di computing a livello di sistema, applicabili a ogni spazio dei nomi nell'istanza. Per ulteriori informazioni, consulta Gestire l'amministrazione di Studio.
Amministrazione dello spazio dei nomi
Il modulo Amministrazione dello spazio dei nomi in Studio ti consente di gestire le configurazioni per lo spazio dei nomi specifico. Per ogni spazio dei nomi è possibile definire profili di calcolo, preferenze di runtime, driver, account di servizio e Git configurazioni. Per saperne di più, consulta Gestire l'amministrazione di Studio.

Pipeline Design Studio

Progetta ed esegui le pipeline in Pipeline Design Studio nell'interfaccia web di Cloud Data Fusion. Progettazione ed esecuzione di pipeline di dati prevede i seguenti passaggi:

  • Connetti a un'origine: Cloud Data Fusion consente le connessioni a sia on-premise che su cloud. L'interfaccia di Studio presenta plug-in di sistema preinstallati in Studio. Puoi scaricare plug-in aggiuntivi da un repository di plug-in, noto come Hub. Per maggiori informazioni consulta la panoramica dei plug-in.
  • Preparazione dei dati: Cloud Data Fusion ti consente di preparare i dati utilizzando il potente plug-in di preparazione dei dati Wrangler. Wrangler aiuta puoi visualizzare, esplorare e trasformare un piccolo campione dei tuoi dati in un unico posto prima di eseguire la logica sull'intero set di dati in Studio. In questo modo puoi applicare rapidamente le trasformazioni per capire in che modo incidono sull'intero set di dati. Puoi creare più trasformazioni e aggiungerle a una ricetta. Per ulteriori informazioni, consulta Panoramica di Wrangler.
  • Trasforma: i plug-in di trasformazione modificano i dati dopo che sono stati caricati da una fonte. Ad esempio, puoi clonare un record, modificare il formato del file in JSON o utilizzare il plug-in JavaScript per creare una trasformazione personalizzata. Per Per ulteriori informazioni, consulta la panoramica dei plug-in.
  • Connettiti a una destinazione: dopo aver preparato i dati e applicato le trasformazioni, puoi connetterti alla destinazione in cui prevedi di caricarli. Cloud Data Fusion supporta i collegamenti a più destinazioni. Per ulteriori informazioni, vedi Panoramica dei plug-in.
  • Anteprima: dopo aver progettato la pipeline, per eseguire il debug dei problemi prima di eseguire il deployment e una pipeline, esegui un job di anteprima. Se si verificano errori, puoi correggerli in modalità Bozza. Studio utilizza il primo modello 100 righe del set di dati di origine per generare l'anteprima. Studio mostra lo stato e la durata del job di anteprima. Puoi interrompere il job in qualsiasi momento. Puoi anche monitorare gli eventi di log durante l'esecuzione del job di anteprima. Per ulteriori informazioni, consulta Anteprima dei dati.
  • Gestire le configurazioni della pipeline: dopo aver visualizzato l'anteprima dei dati, puoi eseguire il deployment della pipeline e gestire le seguenti configurazioni:

    • Configurazione di calcolo: puoi modificare il profilo di calcolo che esegue la pipeline, ad esempio se vuoi eseguire la pipeline su un cluster Dataproc personalizzato anziché sul cluster Dataproc predefinito.
    • Configurazione della pipeline: per ogni pipeline, puoi attivare o disattivare l'instrumentazione, ad esempio le metriche sui tempi. Per impostazione predefinita, la strumentazione in un bucket in cui è abilitato il controllo delle versioni.
    • Configurazione del motore: Spark è il motore di esecuzione predefinito. Puoi trasmettere parametri personalizzati per Spark.
    • Risorse: puoi specificare la memoria e il numero di CPU per il driver e l'executor Spark. Il driver orchestra il job Spark. La che gestisce l'elaborazione dei dati in Spark.
    • Avviso sulla pipeline: puoi configurare la pipeline in modo che invii avvisi e inizi le attività di post-elaborazione al termine dell'esecuzione della pipeline. Puoi creare avvisi della pipeline quando la progetti. Dopo il deployment della pipeline, puoi visualizzare gli avvisi. Per modificare le impostazioni degli avvisi, puoi: e modificare la pipeline.
    • Pushdown della trasformazione: puoi attivare il pushdown della trasformazione se vuoi che una pipeline esegua determinate trasformazioni in BigQuery.

    Per saperne di più, consulta Gestire le configurazioni della pipeline.

  • Riutilizza le pipeline utilizzando macro, preferenze e argomenti di runtime: Cloud Data Fusion consente di riutilizzare le pipeline di dati. Con le pipeline di dati riutilizzabili, puoi avere una singola pipeline che può applicare un pattern di integrazione dei dati a una serie di casi d'uso e set di dati. Le pipeline riutilizzabili offrono una migliore gestibilità. Ti permettono di impostare la maggior parte la configurazione di una pipeline al momento dell'esecuzione, invece di codificarla come hardcoded la progettazione. In Pipeline Design Studio, puoi utilizzare le macro per aggiungere variabili alle configurazioni dei plug-in in modo da poter specificare le sostituzioni delle variabili in fase di esecuzione. Per ulteriori informazioni, consulta Gestire macro, preferenze e argomenti di runtime.

  • Esegui: dopo aver esaminato le configurazioni della pipeline, puoi avviarne l'esecuzione. Puoi vedere la modifica dello stato durante le fasi di esecuzione della pipeline, ad esempio provisioning, avvio, esecuzione e esito positivo.

  • Pianifica e orchestra: le pipeline di dati in batch possono essere impostate per l'esecuzione su una programmazione e una frequenza specificate. Dopo aver creato una pipeline ed eseguirne il deployment, puoi creare una pianificazione. In Pipeline Design Studio, puoi orchestrare le pipeline creando un attivatore in una pipeline di dati batch in modo che venga eseguita al termine di una o più esecuzioni della pipeline. Si tratta delle pipeline dirette e a monte. Crei un trigger sul downstream in modo che venga eseguita in base al completamento di uno o più upstream pipeline di dati.

    Consigliato: puoi anche utilizzare Composer per orchestrare le pipeline in Cloud Data Fusion. Per ulteriori informazioni, vedi Pianifica pipeline e Orchestra pipeline.

  • Modifica pipeline: Cloud Data Fusion consente di modificare un una pipeline o un blocco note personalizzato. Quando modifichi una pipeline di cui è stato eseguito il deployment, viene creata una nuova versione della pipeline con lo stesso nome e viene contrassegnata come la versione più recente. In questo modo, puoi sviluppare le pipeline in modo iterativo anziché duplicarle, creando una nuova pipeline con un nome diverso. Per ulteriori informazioni, consulta Modificare le pipeline.

  • Gestione del controllo del codice sorgente: Cloud Data Fusion ti consente di gestire meglio le pipeline tra sviluppo e produzione con la gestione del controllo del codice sorgente delle pipeline utilizzando GitHub.

  • Logging e monitoraggio: per monitorare le metriche e i log della pipeline, ti consigliamo di attivare il servizio di logging di Stackdriver per utilizzare Cloud Logging con la pipeline Cloud Data Fusion.

Passaggi successivi