Utilizzare il workbench di esplorazione dei dati

Data Exploration Workbench in Dataplex (Esplora) ti consente di eseguire query interattive su dati interamente governati con accesso con un solo clic agli script Spark SQL e ai blocchi note Jupyter. Esplora ti consente di collaborare con più team grazie alla pubblicazione, alla condivisione e alla ricerca integrate degli asset di codice.

Esplora, esegui il provisioning, scala e gestisci l'infrastruttura serverless necessaria per eseguire gli script e i notebook Spark SQL utilizzando le credenziali utente. Puoi rendere operativo il tuo lavoro con la pianificazione serverless da Workbench.

Questo documento descrive come utilizzare le funzionalità di esplorazione in Dataplex.

Costi

Dataplex offre Explore al livello di elaborazione premium.

Terminologia

Questo documento utilizza i seguenti termini:

Ambiente

Un ambiente fornisce risorse di calcolo serverless per l'esecuzione di query e notebook Spark SQL all'interno di un lake. Un amministratore Dataplex crea e gestisce gli ambienti.

Gli amministratori possono autorizzare uno o più utenti a eseguire query e notebook nell'ambiente configurato concedendo loro il ruolo Sviluppatore Dataplex o le autorizzazioni IAM associate.

Sessione

Quando un utente autorizzato sceglie un ambiente per eseguire le query e i notebook, Dataplex utilizza la configurazione dell'ambiente specificata per creare una sessione attiva specifica per l'utente. A seconda della configurazione dell'ambiente, se una sessione non è in uso, viene terminata automaticamente.

Sono necessari alcuni minuti per avviare una nuova sessione per utente. Una volta avviata, la sessione esegue query e notebook successivi per lo stesso utente. Una sessione è attiva per un massimo di 10 ore.

Per un ambiente, Dataplex crea una sola sessione per utente, che è condivisa sia dagli script Spark SQL sia dai blocchi note Jupyter.

Dataplex utilizza le credenziali utente all'interno di una sessione per eseguire operazioni, ad esempio eseguire query sui dati di Cloud Storage e BigQuery.

Nodo

Un nodo specifica la capacità di calcolo in una configurazione dell'ambiente. Un nodo corrisponde a 4 unità di calcolo dati (DCU), che è paragonabile a 4 vCPU e 16 GB di RAM.

Ambiente predefinito

Puoi creare un ambiente predefinito per ogni lake con l'ID default. Un ambiente predefinito deve utilizzare una configurazione predefinita. Una configurazione predefinita è composta da quanto segue:

  • Capacità di calcolo di un nodo
  • Dimensioni del disco principale di 100 GB
  • Arresto automatico della sessione (ora di arresto automatico) impostato su 10 minuti di inattività
  • Il parametro sessionSpec.enableFastStartup, che per impostazione predefinita è impostato su true. Quando questo parametro è impostato su true, Dataplex pre-provisiona le sessioni per questo ambiente in modo che siano subito disponibili, il che riduce il tempo di avvio della sessione iniziale.
  • Una sessione di avvio rapido è una sessione con un solo nodo, per la quale Dataplex applica tariffe simili a quelle dello SKU di elaborazione premium per una sessione normale. Per l'avvio rapido è disponibile un massimo di una sessione sempre attiva, che comporta costi anche quando non è in uso. Dataplex mantiene attiva questa sessione creata in precedenza per 10 ore, poi la disattiva e ne crea una nuova.

Se non selezioni un ambiente esplicitamente e se hai configurato un ambiente predefinito in precedenza, Dataplex utilizza l'ambiente predefinito per creare le sessioni.

Script SQL

Uno script SQL è uno script Spark SQL salvato come contenuto all'interno di un lake Dataplex. Puoi salvare lo script in un lake e condividerlo con altri principali. Inoltre, puoi pianificarne l'esecuzione come job Spark batch senza server in Dataplex. Dataplex consente l'accesso immediato di Spark SQL alle tabelle che mappano i dati in Cloud Storage e BigQuery.

Blocco note

Un blocco note Python 3 è un blocco note Jupyter che salvi come contenuto in un lake Dataplex. Puoi salvare un notebook come contenuto all'interno di un lake e condividerlo con altri principali oppure pianificarlo per l'esecuzione come job batch Spark Dataproc Serverless in Dataplex.

Per i dati in BigQuery, puoi accedere alle tabelle BigQuery direttamente tramite Spark senza utilizzare il comando magico %%bigquery.

Prima di iniziare

Prima di iniziare, collega il tuo lake a Dataproc Metastore e concedi i ruoli richiesti.

Collega il tuo lake a Dataproc Metastore (DPMS)

Per utilizzare Esplora:

  • Associa un'istanza Dataproc Metastore (DPMS) con gRPC nella versione 3.1.2 o successiva al lake Dataplex.
  • Assicurati di avere un Dataproc Metastore e un ambiente mappati al tuo lake.

Scopri come configurare Dataproc Metastore con Dataplex per accedere ai metadati in Spark.

Ruoli obbligatori

A seconda delle azioni che prevedi di eseguire, devi disporre di tutti i seguenti ruoli IAM. Tutti gli ambienti in un lake ereditano le autorizzazioni concesse a livello di lake.

Ruoli IAM Dataplex:

  • Dataplex Viewer
  • Dataplex Developer
  • Dataplex Metadata Reader
  • Dataplex Data Reader

Ruoli aggiuntivi:

Logging

Per comprendere l'utilizzo di Esplora, consulta i seguenti documenti:

Limitazioni note

Questa sezione descrive le limitazioni note di Esplora.

  • Esplora è disponibile per i laghi nelle seguenti regioni:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • In un progetto puoi utilizzare fino a 10 ambienti per regione. Per informazioni su come aumentare il limite di quota, consulta Utilizzo delle quote.

  • Puoi creare ambienti con un massimo di 150 nodi. La durata delle sessioni individuali degli utenti è limitata a 10 ore.

  • Gli script Spark SQL possono eseguire query solo sui dati all'interno di un determinato lake. Se vuoi eseguire query sui dati in un altro lake, devi passare a quel lake e selezionare un ambiente al suo interno.

  • Dopo aver annullato l'eliminazione di un progetto, Dataplex non ripristina le risorse di contenuti, come script SQL o notebook. Procedi con cautela quando elimini un progetto con risorse di Esplorazione contenuti.

  • Quando pianifichi un notebook, se l'ambiente contiene pacchetti personalizzati, puoi pianificarlo solo utilizzando gcloud CLI. Per saperne di più, consulta Pianificare i notebook con pacchetti personalizzati.

  • Se elimini un ambiente prima di eliminare gli script e i notebook, non potrai accedere alla pagina Esplora. Pertanto, assicurati di eliminare gli script e i notebook prima di eliminare un ambiente in Esplora.

  • Le sessioni di esplorazione non supportano i file system distribuiti Hadoop (HDFS). Non memorizzare dati utente in una sessione di esplorazione perché vengono eliminati al termine della sessione.

  • Il limite di dimensione massimo per un notebook o uno script SQL è 1 MB.

Creazione di un ambiente

  1. Nella console Google Cloud, vai alla pagina Dataplex Gestisci i lake.

    Vai a Dataplex

  2. Seleziona un lake Dataplex per cui vuoi creare un ambiente.

  3. Fai clic sulla scheda Ambientazioni.

  4. Fai clic su Crea ambiente.

  5. Nel campo Nome visualizzato, inserisci un nome per l'ambiente.

  6. In ID ambiente, inserisci un ID univoco.

  7. (Facoltativo) Inserisci una descrizione per il nuovo ambiente.

  8. Nel riquadro Configura calcolo, specifica quanto segue:

    1. Numero di nodi: il numero di nodi di cui deve essere eseguito il provisioning per le sessioni utente create per questo ambiente.
    2. Numero massimo di nodi: il numero massimo di nodi che Dataplex può scalare automaticamente nelle sessioni utente associate a questo ambiente.
    3. Dimensione del disco principale: la dimensione del disco associata a ciascun nodo di cui è stato eseguito il provisioning.
    4. Ora di spegnimento automatico: il tempo di inattività dopo il quale Dataplex spegne automaticamente le sessioni utente associate a questo ambiente. Puoi impostare un minimo di 10 minuti e un massimo di 60 minuti.
  9. Nel riquadro Pacchetti software (facoltativo), puoi specificare pacchetti Python, file JAR e proprietà Spark aggiuntivi da installare nelle sessioni utente provisionate per questo ambiente.

    Quando crei un ambiente e fornisci il percorso Cloud Storage per i file JAR Java o i pacchetti Python, affinché Dataplex possa installare i file JAR o i pacchetti, assicurati che l'agente di servizio Cloud Dataplex disponga delle autorizzazioni necessarie per accedere ai file Cloud Storage.

  10. Fai clic su Crea.

Note

  • Un nodo corrisponde a 4 unità di calcolo dati (DCU), che è paragonabile a 4 vCPU e 16 GB di RAM.

  • Puoi creare un ambiente con un nodo o con tre o più nodi.

  • Se sei un amministratore del lago, puoi configurare gli ambienti in anticipo, consentendo agli utenti di eseguire i loro carichi di lavoro utilizzando le configurazioni predefinite.

  • Sebbene gli ambienti possano essere condivisi con più utenti, Dataplex crea una sessione separata per utente utilizzando la configurazione dell'ambiente.

Creare un ambiente predefinito

Consulta i requisiti di configurazione per un ambiente predefinito.

Console

  1. Apri Dataplex nella console Google Cloud.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Seleziona un lake Dataplex.

  4. Fai clic sulla scheda Ambientazioni.

  5. Fai clic su Crea ambiente predefinito.

gcloud

Per creare un ambiente predefinito con l'avvio rapido abilitato, esegui il seguente comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Esplorare i dati utilizzando Workbench di Spark SQL

Per esplorare i dati di BigQuery e Cloud Storage, utilizza gli script Spark SQL.

Creare e salvare uno script

  1. Nella console Google Cloud, vai alla pagina Esplora di Dataplex.

  2. Nella visualizzazione Esplora, seleziona il lago contenente le risorse di dati che vuoi esplorare.

  3. Nel browser delle risorse, espandi il lago. Vengono visualizzate le seguenti directory:

    • Dati: contiene tutti i database e le tabelle dell'istanza DPMS collegati al tuo lake, incluse le tabelle Hudi, Iceberg e Delta Lake.
    • Notebook: contiene tutti i notebook creati nel lake selezionato.
    • Script Spark SQL: contiene tutti gli script Spark SQL creati nel lago selezionato.
  4. Espandi Dati e seleziona il database e la tabella richiesti.

  5. Per utilizzare una query di esempio, fai clic su QUERY. Workbench Spark SQL compila automaticamente una nuova scheda con una query di esempio.

  6. Per creare un nuovo script, nell'editor Spark SQL fai clic su Nuovo script e inserisci le query.

  7. Per salvare lo script, seleziona Salva > Salva script.

Eseguire uno script

  1. Nell'editor Spark SQL, fai clic sulla scheda con la query da eseguire.

  2. Fai clic su Seleziona ambiente. Seleziona l'ambiente in cui vuoi eseguire la query. Se non selezioni un ambiente, Dataplex utilizza l'ambiente predefinito per creare una sessione per utente.

    Puoi eseguire più query Spark SQL nello stesso script separando le query con punti e virgola.

  3. Fai clic su Esegui.

  4. Visualizza i risultati della cronologia delle query per ciascuna delle query nello script utilizzando il menu a discesa.

Pianificare uno script

Puoi pianificare l'esecuzione di uno script come attività Dataplex. Per saperne di più, vedi Creare e gestire le pianificazioni per gli script SQL.

Condividere uno script

Puoi condividere uno script con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sullo script Spark SQL che vuoi condividere.

  2. Nel menu Altro, fai clic su Condividi.

  3. Esamina le autorizzazioni. Aggiungi o rimuovi le autorizzazioni di visualizzatore, editor e amministratore per lo script condiviso.

Dopo aver condiviso uno script, gli utenti con autorizzazioni di visualizzazione o modifica a livello di lake possono accedere al lake e lavorare sullo script condiviso.

Esplorare i dati di BigQuery e Cloud Storage utilizzando Spark SQL

Per qualsiasi set di dati BigQuery aggiunto come asset a una zona, Dataplex consente l'accesso diretto di Spark SQL a tutte le tabelle del set di dati. Puoi eseguire query sui dati in Dataplex utilizzando script o blocchi note Spark SQL. Ad esempio:

 select * from ZONE_ID.TABLE_ID

Se le risorse vengono mappate ai bucket Cloud Storage nella stessa zona, Dataplex fornisce un elenco unificato di tabelle su cui puoi eseguire query utilizzando Spark.

Esplorare i dati utilizzando i notebook

Questa sezione descrive come creare, pianificare, condividere, importare ed esportare i notebook.

Creare e salvare un notebook

  1. Nella console Google Cloud, vai alla pagina Esplora di Dataplex.

  2. Nella visualizzazione Esplora, seleziona un lago.

  3. Espandi il lago e fai clic sulla cartella Notebook.

  4. Fai clic su Nuovo blocco note.

  5. Nel campo Percorso del notebook, fornisci il nome del notebook.

  6. (Facoltativo) Nel campo Descrizione, fornisci una descrizione del nuovo notebook.

  7. (Facoltativo) Aggiungi delle etichette.

  8. Fai clic su Crea blocco note. A questo punto viene creato un blocco note.

  9. Per aprire il blocco note creato, fai clic su Apri blocco note.

  10. Seleziona un ambiente in cui vuoi che Dataplex crei una sessione utente quando crei o apri il notebook. Assicurati di selezionare un ambiente con pacchetti attendibili.

    Se non selezioni un ambiente, Dataplex utilizza quello predefinito. Se non hai un ambiente, creane uno. Per ulteriori informazioni, consulta Creare un ambiente.

    Ora puoi esplorare i dati scrivendo codice Python e salvando il blocco note dopo l'esplorazione. In un secondo momento, puoi visualizzare l'anteprima del notebook creato ed esaminarne l'output senza creare una sessione ed eseguire il codice.

Pianificare un blocco note

Puoi pianificare l'esecuzione di un notebook come attività Dataplex. Per saperne di più, vedi Creare e gestire le pianificazioni per i notebook.

Condividere un blocco note

Puoi condividere un blocco note con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Notebook.

  2. Seleziona il notebook Jupyter che vuoi condividere.

  3. Fai clic su Condividi.

  4. Esamina le autorizzazioni. Aggiungi o rimuovi le autorizzazioni di visualizzatore, editor e amministratore per questo blocco note.

    Dopo aver condiviso un blocco note, gli utenti con autorizzazioni di visualizzazione o modifica a livello di lago possono accedere al lago e lavorare al blocco note condiviso.

Importare un blocco note

Puoi importare un notebook da un bucket Cloud Storage:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Notebook.

  2. Fai clic su Importa.

  3. Vai al bucket Cloud Storage contenente il notebook che vuoi importare.

  4. Seleziona il blocco note, fornisci un nome e fai clic su Importa.

    Il blocco note importato viene creato nella cartella Notebook. Puoi aprire, modificare, condividere e pianificare il blocco note importato.

Esportare un notebook

Puoi esportare un notebook in un bucket Cloud Storage in modo che possa essere utilizzato da altri utenti dell'organizzazione con autorizzazioni IAM.

  1. Nella visualizzazione Esplora, fai clic sulla cartella Notebook.

  2. Contrassegna il notebook che vuoi esportare.

  3. Fai clic sul menu e poi su Esporta.

  4. Inserisci il percorso Cloud Storage in cui vuoi esportare il notebook.

  5. Fai clic su Esporta blocco note.

Passaggi successivi