Utilizzare il workbench di esplorazione dei dati

Data Exploration Workbench in Dataplex (Esplora) ti consente di eseguire query interattive su dati interamente governati con accesso con un solo clic agli script Spark SQL e ai blocchi note Jupyter. Esplora ti consente di collaborare con più team grazie alle funzionalità integrate di pubblicazione, condivisione e ricerca degli asset di codice.

Esplora, esegui il provisioning, scala e gestisci l'infrastruttura serverless necessaria per eseguire gli script e i notebook Spark SQL utilizzando le credenziali utente. Puoi rendere operativo il tuo lavoro con la pianificazione serverless da Workbench.

Questo documento descrive come utilizzare le funzionalità di esplorazione in Dataplex.

Costi

Dataplex offre Explore al livello di elaborazione premium.

Terminologia

In questo documento vengono utilizzati i seguenti termini:

Ambiente

Un ambiente fornisce risorse di calcolo serverless per l'esecuzione di query e notebook Spark SQL all'interno di un lake. Un amministratore Dataplex crea e gestisce gli ambienti.

Gli amministratori possono autorizzare uno o più utenti a eseguire query e blocchi note nell'ambiente configurato concedendogli Ruolo di sviluppatore o le autorizzazioni IAM associate.

Sessione

Quando un utente autorizzato sceglie un ambiente in cui eseguire le proprie query blocchi note, Dataplex utilizza la configurazione dell'ambiente specificata per creare una sessione attiva specifica per l'utente. In base all'ambiente configurazione, se una sessione non è in uso, termina automaticamente.

L'avvio di una nuova sessione richiede un paio di minuti per utente. Una volta che una sessione , esegue query e blocchi note successivi per lo stesso utente. Una sessione è attivo per un massimo di 10 ore.

Per un ambiente, Dataplex crea una sola sessione per utente, che è condivisa sia dagli script Spark SQL sia dai blocchi note Jupyter.

Dataplex utilizza le credenziali utente all'interno di una sessione per eseguire operazioni, ad esempio eseguire query sui dati di Cloud Storage e BigQuery.

Nodo

Un nodo specifica la capacità di calcolo in una configurazione dell'ambiente. Un nodo viene mappato a 4 unità di calcolo dei dati (DCU), equivalenti a 4 vCPU e 16 GB di RAM.

Ambiente predefinito

Puoi creare un ambiente predefinito per ogni lake con ID default. Un ambiente predefinito deve utilizzare una configurazione predefinita. Una configurazione predefinita è composta da quanto segue:

  • Capacità di calcolo di un nodo
  • Dimensione del disco primario di 100 GB
  • Arresto automatico della sessione (ora di arresto automatico) impostato su 10 minuti di inattività
  • Il parametro sessionSpec.enableFastStartup, che per impostazione predefinita è impostato su true. Quando questo parametro è impostato su true, Dataplex pre-provisiona le sessioni per questo ambiente in modo che siano subito disponibili, il che riduce il tempo di avvio della sessione iniziale.
  • Una sessione di avvio rapido è una sessione a nodo singolo, che Dataplex addebiti allo SKU Premium Processing simili a quelli di una normale sessione. Per l'avvio rapido è disponibile un massimo di una sessione sempre attiva, che comporta costi anche quando non è in uso. Dataplex mantiene attiva questa sessione pre-creata per 10 ore, la disattiva e poi crea una nuova sessione.

Se non selezioni esplicitamente un ambiente e hai configurato dell'ambiente in uso, Dataplex utilizza l'ambiente predefinito per creare sessioni.

Script SQL

Uno script SQL è uno script Spark SQL salvato come contenuto all'interno di un lake Dataplex. Puoi salvare lo script all'interno di un lake e la condividiamo con altre entità. Inoltre, puoi pianificarne l'esecuzione come job Spark batch senza server in Dataplex. Dataplex consente l'accesso immediato di Spark SQL alle tabelle che mappano i dati in Cloud Storage e BigQuery.

Blocco note

Un notebook Python 3 è un notebook Jupyter che salvi come contenuto in un lake Dataplex. Puoi salvare un notebook come contenuto all'interno di un lake e condividerlo con altri principali oppure pianificarlo per l'esecuzione come job batch Spark Dataproc Serverless in Dataplex.

Per i dati in BigQuery, puoi accedere alle tabelle BigQuery direttamente tramite Spark senza utilizzare il comando magico %%bigquery.

Prima di iniziare

Prima di iniziare, collega il lake a Dataproc Metastore e concedi i i ruoli richiesti.

Collega il tuo lake a Dataproc Metastore (DPMS)

Per utilizzare Esplora:

  • Associa un'istanza Dataproc Metastore (DPMS) con gRPC nella versione 3.1.2 o successiva al lake Dataplex.
  • Assicurati di avere un Dataproc Metastore e un ambiente mappati al tuo lake.

Scopri come configurare Dataproc Metastore con Dataplex per accedere ai metadati in Spark.

Ruoli obbligatori

A seconda delle azioni che prevedi di eseguire, sono necessari tutti i seguenti ruoli. Tutti gli ambienti in un lake ereditano le autorizzazioni concesse a livello di lake.

Ruoli IAM Dataplex:

  • Dataplex Viewer
  • Dataplex Developer
  • Dataplex Metadata Reader
  • Dataplex Data Reader

Ruoli aggiuntivi:

Logging

Per comprendere l'utilizzo di Esplora, consulta i seguenti documenti:

Limitazioni note

Questa sezione descrive i limiti noti di Esplora.

  • Esplora è disponibile per i laghi nelle seguenti regioni:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • In un progetto puoi utilizzare fino a 10 ambienti per regione. Per informazioni per informazioni su come aumentare il limite di quota, consulta Utilizzo delle quote.

  • Puoi creare ambienti con un massimo di 150 nodi. Durata della sessione per le sessioni utente individuali è limitata a 10 ore.

  • Gli script Spark SQL possono eseguire query sui dati solo all'interno di un determinato lake. Se vuoi eseguire query sui dati in un altro lake, devi passare a quel lake e selezionare un ambiente al suo interno.

  • Dopo aver annullato l'eliminazione di un progetto, Dataplex non ripristina le risorse di contenuti, come script SQL o notebook. Procedi con cautela quando elimini un progetto con risorse di Esplorazione contenuti.

  • Quando pianifichi un notebook, se l'ambiente contiene pacchetti personalizzati, puoi pianificarlo solo utilizzando gcloud CLI. Per saperne di più, consulta Pianificare i notebook con pacchetti personalizzati.

  • Se elimini un ambiente prima di eliminare gli script e i blocchi note, non possono accedere alla pagina Esplora. Pertanto, assicurati di eliminare script e blocchi note prima di eliminare un ambiente in Esplora.

  • Le sessioni di esplorazione non supportano i file system distribuiti Hadoop (HDFS). Non memorizzare dati utente in una sessione di esplorazione perché vengono eliminati al termine della sessione.

  • Le dimensioni massime di un blocco note o uno script SQL sono pari a 1 MB.

Creazione di un ambiente

  1. Nella console Google Cloud, vai a Dataplex Gestisci lake.

    Vai a Dataplex

  2. Seleziona un lake Dataplex per cui vuoi creare un ambiente.

  3. Fai clic sulla scheda Ambienti.

  4. Fai clic su Crea ambiente.

  5. Nel campo Nome visualizzato, inserisci un nome per l'ambiente.

  6. In ID ambiente, inserisci un ID univoco.

  7. (Facoltativo) Inserisci una descrizione per il nuovo ambiente.

  8. Nel riquadro Configura computing, specifica quanto segue:

    1. Numero di nodi: il numero di nodi di cui eseguire il provisioning per le sessioni utente create per questo ambiente.
    2. Numero massimo di nodi: il numero massimo di nodi che Dataplex può scalare automaticamente nelle sessioni utente associate con questo ambiente.
    3. Dimensione del disco principale: la dimensione del disco associata a ciascun nodo di cui è stato eseguito il provisioning.
    4. Tempo di arresto automatico: il tempo di inattività dopo il quale Dataplex chiude automaticamente le sessioni utente associate completamente gestito di Google Cloud. Puoi impostare un minimo di 10 minuti e un massimo di 60 minuti.
  9. Nel riquadro Pacchetti software (facoltativo), puoi specificare ulteriori Pacchetti Python, file JAR e proprietà Spark da installare nelle sessioni utente di cui è stato eseguito il provisioning per questo ambiente.

    Quando crei un ambiente e fornisci il percorso Cloud Storage per i file JAR Java o i pacchetti Python, affinché Dataplex possa installare i file JAR o i pacchetti, assicurati che l'agente di servizio Cloud Dataplex disponga delle autorizzazioni necessarie per accedere ai file Cloud Storage.

  10. Fai clic su Crea.

Note

  • Un nodo è mappato a 4 unità di calcolo dei dati (DCU), equivalenti a 4 vCPU e 16 GB di RAM.

  • Puoi creare un ambiente con un nodo oppure con tre o più nodi.

  • Se sei un amministratore del lake, puoi configurare gli ambienti in anticipo, consentendo agli utenti di eseguire i carichi di lavoro utilizzando le configurazioni prestabilite.

  • Sebbene gli ambienti possano essere condivisi con più utenti, Dataplex crea una sessione separata per utente utilizzando l'ambiente configurazione.

Crea un ambiente predefinito

Consulta i requisiti di configurazione per un ambiente predefinito.

Console

  1. Apri Dataplex nella console Google Cloud.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Seleziona un lake Dataplex.

  4. Fai clic sulla scheda Ambienti.

  5. Fai clic su Crea ambiente predefinito.

gcloud

Per creare un ambiente predefinito con l'avvio rapido abilitato, esegui il seguente comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Esplorare i dati utilizzando Spark SQL Workbench

Per esplorare i dati di BigQuery e Cloud Storage, utilizza Spark SQL script.

Creare e salvare uno script

  1. Nella console Google Cloud, vai alla pagina Esplora di Dataplex.

  2. Nella visualizzazione Esplora, seleziona il lake contenente gli asset di dati che ti interessano. da esplorare.

  3. Nel browser delle risorse, espandi il lake. Vengono visualizzate le seguenti directory:

    • Dati: contiene tutti i database e le tabelle nell'istanza DPMS collegati al tuo lago, tra cui le tabelle dei lake Hudi, Iceberg e Delta.
    • Notebook: contiene tutti i notebook creati nel lake selezionato.
    • Script SQL Spark: contiene tutti gli script Spark SQL creati in il lake selezionato.
  4. Espandi Dati e seleziona il database e la tabella richiesti.

  5. Per utilizzare una query di esempio, fai clic su QUERY. Il workbench Spark SQL compila automaticamente una nuova scheda con una query di esempio.

  6. Per creare un nuovo script, fai clic su Nuovo script nell'editor SQL di Spark. e inserisci le query.

  7. Per salvare lo script, seleziona Salva > Salva script.

Eseguire uno script

  1. Nell'editor Spark SQL, fai clic sulla scheda con la query da eseguire.

  2. Fai clic su Seleziona ambiente. Seleziona l'ambiente in cui vuoi eseguire la query. Se non selezioni un ambiente, Dataplex utilizza l'ambiente predefinito per creare una sessione per utente.

    Puoi eseguire più query Spark SQL nello stesso script separando le query con il punto e virgola.

  3. Fai clic su Esegui.

  4. Visualizzare i risultati della Cronologia delle query per ogni query nello script utilizzando l'elenco a discesa.

Pianificare uno script

Puoi pianificare l'esecuzione di uno script come attività Dataplex. Per saperne di più, consulta Creare e gestire pianificazioni per gli script SQL.

Condividere uno script

Puoi condividere uno script con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sullo script Spark SQL che vuoi condividere.

  2. Nel menu Altro, fai clic su Condividi.

  3. Esamina le autorizzazioni. Aggiungi o rimuovi le autorizzazioni di visualizzatore, editor e amministratore per lo script condiviso.

Dopo aver condiviso uno script, gli utenti con autorizzazioni di visualizzazione o modifica a livello di lake possono accedere al lake e lavorare sullo script condiviso.

Esplorare i dati di BigQuery e Cloud Storage utilizzando Spark SQL

Per qualsiasi set di dati BigQuery aggiunto come asset a una zona, Dataplex consente l'accesso diretto a Spark SQL a tutte le tabelle del set di dati. Puoi eseguire query sui dati in Dataplex utilizzando script o blocchi note Spark SQL. Ad esempio:

 select * from ZONE_ID.TABLE_ID

Se le risorse vengono mappate ai bucket Cloud Storage nella stessa zona, Dataplex fornisce un elenco unificato di tabelle su cui puoi eseguire query utilizzando Spark.

Esplorare i dati utilizzando i blocchi note

Questa sezione descrive come creare, pianificare, condividere, importare ed esportare i notebook.

Crea e salva un blocco note

  1. Nella console Google Cloud, vai alla pagina Esplora di Dataplex.

  2. Nella visualizzazione Esplora, seleziona un lake.

  3. Espandi il lake e fai clic sulla cartella Blocchi note.

  4. Fai clic su Nuovo blocco note.

  5. Nel campo Percorso blocco note, specifica il nome del blocco note.

  6. (Facoltativo) Nel campo Descrizione, fornisci una descrizione della nuova un blocco note personalizzato.

  7. (Facoltativo) Aggiungi delle etichette.

  8. Fai clic su Crea blocco note. A questo punto viene creato un blocco note.

  9. Per aprire il blocco note creato, fai clic su Apri blocco note.

  10. Seleziona un ambiente in cui vuoi che Dataplex crei sessione utente, quando crei o apri il blocco note. Assicurati di e selezionare un ambiente con pacchetti che ritieni attendibili.

    Se non selezioni un ambiente, Dataplex utilizza il valore predefinito completamente gestito di Google Cloud. Se non hai un ambiente, creane uno. Per ulteriori informazioni, consulta Creare un ambiente.

    Ora puoi esplorare i tuoi dati scrivendo codice Python e salvando il blocco note post-esplorazione. In un secondo momento, puoi visualizzare l'anteprima del notebook creato ed esaminarne l'output senza creare una sessione ed eseguire il codice.

Pianifica un blocco note

Puoi pianificare l'esecuzione di un blocco note come attività Dataplex. Per saperne di più, vedi Creare e gestire pianificazioni per i blocchi note.

Condividere un blocco note

Puoi condividere un blocco note con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Seleziona il notebook Jupyter che vuoi condividere.

  3. Fai clic su Condividi.

  4. Rivedi le autorizzazioni. Aggiungere o rimuovere visualizzatore, editor e amministratore autorizzazioni per questo blocco note.

    Dopo aver condiviso un blocco note, gli utenti con autorizzazioni di visualizzazione o modifica sul lake possono accedere al lake e lavorare sul blocco note condiviso.

Importa un blocco note

Puoi importare un notebook da un bucket Cloud Storage:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Fai clic su Importa.

  3. Vai al bucket Cloud Storage contenente il notebook che vuoi importare.

  4. Seleziona il blocco note, fornisci un nome e fai clic su Importa.

    Il blocco note importato viene creato nella cartella Notebook. Puoi aprire, modificare, condividere e pianificare il blocco note importato.

Esporta un blocco note

Puoi esportare un blocco note in un bucket Cloud Storage in modo utilizzati da altri nell'organizzazione con autorizzazioni IAM.

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Contrassegna il notebook che vuoi esportare.

  3. Fai clic sul menu e seleziona Esporta:

  4. Inserisci il percorso Cloud Storage in cui vuoi esportare il blocco note.

  5. Fai clic su Esporta blocco note.

Passaggi successivi