Utilizzare Workbench di esplorazione dei dati

Il workbench di esplorazione dei dati in Dataplex (esplorazione) consente di eseguire query su dati completamente regolati in modo interattivo con l'accesso con un solo clic agli script Spark SQL e ai blocchi note Jupyter. Esplora ti permette di collaborare tra team grazie a funzionalità integrate di pubblicazione, condivisione e ricerca.

Esplora il provisioning, la scalabilità e la gestione dell'infrastruttura serverless necessaria per eseguire gli script e i blocchi note Spark SQL utilizzando le credenziali utente. Puoi operativizzare il tuo lavoro con la pianificazione serverless dal workbench.

Questo documento descrive come utilizzare le funzionalità Esplora in Dataplex.

Costi

Dataplex offre Esplora al livello di elaborazione premium.

Terminologia

Questo documento utilizza i seguenti termini:

Ambiente

Un ambiente fornisce risorse di serverless computing per l'esecuzione delle query e dei blocchi note Spark SQL all'interno di un lake. Un amministratore Dataplex crea e gestisce gli ambienti.

Gli amministratori possono autorizzare uno o più utenti a eseguire query e blocchi note nell'ambiente configurato assegnando loro il ruolo sviluppatore o le autorizzazioni IAM associate.

Session

Quando un utente autorizzato sceglie un ambiente per l'esecuzione delle query e dei blocchi note, Dataplex utilizza la configurazione dell'ambiente specificata per creare una sessione attiva specifica per l'utente. A seconda della configurazione dell'ambiente, se una sessione non è in uso, viene terminata automaticamente.

L'avvio di una nuova sessione per utente richiede un paio di minuti. Una volta avviata, la sessione esegue le query e i blocchi note successive per lo stesso utente. Una sessione è attiva per un massimo di 10 ore.

Per un ambiente, Dataplex crea una sola sessione per utente, condivisa dagli script Spark SQL e dai blocchi note Jupyter.

Dataplex utilizza le credenziali utente all'interno di una sessione per eseguire operazioni, come l'esecuzione di query sui dati da Cloud Storage e BigQuery.

Nodo

Un nodo specifica la capacità di calcolo in una configurazione di ambiente. Un nodo è mappato a 4 unità di calcolo di dati (DCU), paragonabili a 4 vCPU e 16 GB di RAM.

Ambiente predefinito

Puoi creare un ambiente predefinito per ogni lake con ID default. Un ambiente predefinito deve utilizzare una configurazione predefinita. Una configurazione predefinita è costituita da quanto segue:

  • Capacità di calcolo di un nodo
  • Dimensione del disco primario di 100 GB
  • Arresto automatico della sessione (tempo di arresto automatico) impostato su 10 minuti di inattività
  • Il parametro sessionSpec.enableFastStartup, che è impostato per impostazione predefinita su true. Se questo parametro è impostato su true, Dataplex esegue il pre-provisioning delle sessioni per questo ambiente in modo che siano subito disponibili, riducendo il tempo di avvio iniziale della sessione.
  • Una sessione di avvio rapido è una sessione a nodo singolo, che Dataplex addebita alle tariffe dello SKU di elaborazione premium, simili a quelle di una normale sessione. Per l'avvio rapido è disponibile al massimo una sessione sempre attiva, il che comporta costi anche quando non in uso. Dataplex mantiene attiva questa sessione precreata per 10 ore, la chiude e crea una nuova sessione.

Se non selezioni un ambiente in modo esplicito e hai già configurato un ambiente predefinito, Dataplex utilizza l'ambiente predefinito per creare sessioni.

Script SQL

Uno script SQL è uno script Spark SQL che viene salvato come contenuto all'interno di un lake Dataplex. Puoi salvare lo script all'interno di un lake e condividerlo con altre entità. Inoltre, puoi pianificarne l'esecuzione come job Spark serverless batch in Dataplex. Dataplex consente l'accesso immediato a Spark SQL alle tabelle mappate ai dati in Cloud Storage e BigQuery.

Blocco note

Un blocco note Python 3 è un blocco note Jupyter che salvi come contenuto in un lake Dataplex. Puoi salvare un blocco note come contenuto all'interno di un lake e condividerlo con altre entità oppure pianificarlo per l'esecuzione come job batch Dataproc serverless di Dataproc in Dataplex.

Per i dati in BigQuery, puoi accedere alle tabelle BigQuery direttamente tramite Spark senza utilizzare il comando magico %%bigquery.

Prima di iniziare

Prima di iniziare, collega il tuo lake a Dataproc Metastore e concedi i ruoli richiesti.

Collega il tuo lake a Dataproc Metastore (DPMS)

Per utilizzare Esplora:

Scopri come configurare Dataproc Metastore con Dataplex per accedere ai metadati in Spark.

Ruoli obbligatori

A seconda delle azioni che intendi eseguire, sono necessari tutti i seguenti ruoli IAM. Tutti gli ambienti in un lake ereditano le autorizzazioni concesse a livello di lake.

Ruoli IAM Dataplex:

  • Visualizzatore Dataplex
  • Sviluppatore Dataplex
  • Lettore metadati Dataplex
  • Lettore dati Dataplex

Ruoli aggiuntivi:

Logging

Per comprendere l'utilizzo di Esplora, consulta i seguenti documenti:

Limitazioni note

Questa sezione descrive i limiti noti di Esplora.

  • L'esplorazione è disponibile per i laghi nelle seguenti regioni:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Puoi utilizzare fino a 10 ambienti per regione in un progetto. Per informazioni sull'aumento del limite di quota, consulta Utilizzo delle quote.

  • Puoi creare ambienti con un massimo di 150 nodi. La durata delle sessioni di singoli utenti è limitata a 10 ore.

  • Gli script SQL Spark possono eseguire query solo sui dati all'interno di un determinato lake. Per eseguire query sui dati in un lake diverso, devi passare a quel lake e selezionare un ambiente all'interno di quel lake.

  • Dopo l'annullamento dell'eliminazione di un progetto, Dataplex non ripristina le risorse di contenuto, come script SQL o blocchi note. Procedi con cautela quando elimini un progetto con risorse di contenuti Esplora.

  • Quando pianifichi un blocco note, se nell'ambiente sono presenti pacchetti personalizzati, puoi pianificarlo solo utilizzando gcloud CLI. Per ulteriori informazioni, consulta Pianificare blocchi note con pacchetti personalizzati.

  • Se elimini un ambiente prima di eliminare gli script e i blocchi note, non potrai accedere alla pagina Esplora. Di conseguenza, assicurati di eliminare gli script e i blocchi note prima di eliminare un ambiente in Esplora.

  • Le sessioni di esplorazione non supportano i file system distribuiti Hadoop (HDFS). Non archiviare dati utente in una sessione di esplorazione perché vengono eliminati al termine della sessione.

  • La dimensione massima per un blocco note o uno script SQL è di 1 MB.

Creazione di un ambiente

  1. Nella console Google Cloud, vai alla pagina Gestisci lake di Dataplex.

    Vai a Dataplex

  2. Seleziona un lake Dataplex per il quale vuoi creare un ambiente.

  3. Fai clic sulla scheda Ambienti.

  4. Fai clic su Crea ambiente.

  5. Nel campo Nome visualizzato, inserisci un nome per l'ambiente.

  6. In ID ambiente, inserisci un ID univoco.

  7. (Facoltativo) Inserisci una descrizione per il nuovo ambiente.

  8. Nel riquadro Configura computing, specifica quanto segue:

    1. Numero di nodi: il numero di nodi di cui eseguire il provisioning per le sessioni utente create per questo ambiente.
    2. Numero massimo di nodi: il numero massimo di nodi che Dataplex può scalare automaticamente nelle sessioni utente associate all'ambiente.
    3. Dimensione del disco primario: la quantità di dimensione del disco associata a ogni nodo di cui è stato eseguito il provisioning.
    4. Tempo di arresto automatico: il tempo di inattività dopo il quale Dataplex arresta automaticamente le sessioni utente associate all'ambiente. Puoi impostare un minimo di 10 minuti e un massimo di 60 minuti.
  9. Nel riquadro Pacchetti software (facoltativo), puoi specificare pacchetti Python, file JAR e proprietà Spark aggiuntivi da installare nelle sessioni utente di cui è stato eseguito il provisioning per questo ambiente.

    Quando crei un ambiente e fornisci il percorso Cloud Storage per i pacchetti Python o JAR Java, affinché Dataplex possa installare i JAR o i pacchetti, assicurati che l'agente di servizio Cloud Dataplex disponga delle autorizzazioni necessarie per accedere ai file Cloud Storage.

  10. Fai clic su Crea.

Note

  • Un nodo viene mappato a 4 unità di calcolo di dati (DCU), paragonabili a 4 vCPU e 16 GB di RAM.

  • Puoi creare un ambiente con un nodo o con tre o più nodi.

  • Se sei un amministratore di lake, puoi configurare gli ambienti in anticipo, consentendo agli utenti di eseguire i propri carichi di lavoro utilizzando le configurazioni predefinite.

  • Anche se gli ambienti possono essere condivisi con più utenti, Dataplex crea una sessione separata per utente utilizzando la configurazione dell'ambiente.

Crea un ambiente predefinito

Consulta i requisiti di configurazione per un ambiente predefinito.

Console

  1. Apri Dataplex nella console Google Cloud.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Seleziona un lake Dataplex.

  4. Fai clic sulla scheda Ambienti.

  5. Fai clic su Crea ambiente predefinito.

gcloud

Per creare un ambiente predefinito con l'avvio rapido abilitato, esegui questo comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Esplora i dati utilizzando Spark SQL Workbench

Per esplorare i dati di BigQuery e Cloud Storage, utilizza gli script SQL Spark.

Creare e salvare uno script

  1. Nella console Google Cloud, vai alla pagina Esplora di Dataplex.

  2. Nella visualizzazione Esplora, seleziona il lake contenente gli asset di dati che vuoi esplorare.

  3. Nel browser delle risorse, espandi il lake. Vengono visualizzate le seguenti cartelle:

    • Dati: contiene tutti i database e le tabelle nell'istanza DPMS connessa al lake, comprese le tabelle Hudi, Iceberg e Delta lake.
    • Blocchi note: contiene tutti i blocchi note creati nel lake selezionato.
    • Script SQL Spark: contengono tutti gli script SQL Spark creati nel lake selezionato.
  4. Espandi Dati e seleziona il database e la tabella richiesti.

  5. Per utilizzare una query di esempio, fai clic su QUERY. Il workbench di Spark SQL compila automaticamente una nuova scheda con una query di esempio.

  6. Per creare un nuovo script, fai clic su Nuovo script nell'editor SQL Spark e inserisci le query.

  7. Per salvare lo script, seleziona Salva > Salva script.

Esegui uno script

  1. Nell'editor SQL Spark, fai clic sulla scheda con la query che vuoi eseguire.

  2. Fai clic su Seleziona ambiente. Seleziona l'ambiente in cui vuoi eseguire la query. Se non selezioni un ambiente, Dataplex utilizza l'ambiente predefinito per creare una sessione per utente.

    Puoi eseguire più query Spark SQL nello stesso script separando le query con un punto e virgola.

  3. Fai clic su Esegui.

  4. Visualizza i risultati della cronologia delle query per ciascuna query nello script utilizzando l'elenco a discesa.

Pianificare uno script

Puoi pianificare l'esecuzione di uno script come attività Dataplex. Per maggiori informazioni, consulta Creare e gestire le pianificazioni per gli script SQL.

Condividere uno script

Puoi condividere uno script con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sullo script Spark SQL che vuoi condividere.

  2. Nel menu Altro, fai clic su Condividi.

  3. Controlla le autorizzazioni. Aggiungi o rimuovi le autorizzazioni di visualizzatore, editor e amministratore per lo script condiviso.

Dopo aver condiviso uno script, gli utenti con autorizzazioni di visualizzazione o modifica a livello di lake possono accedere al lake e lavorare allo script condiviso.

Esplora i dati di BigQuery e Cloud Storage con Spark SQL

Per qualsiasi set di dati BigQuery che viene aggiunto come asset a una zona, Dataplex consente l'accesso diretto a Spark SQL a tutte le tabelle nel set di dati. Puoi eseguire query sui dati in Dataplex utilizzando script SQL Spark o blocchi note. Ad esempio:

 select * from ZONE_ID.TABLE_ID

Se i tuoi asset sono mappati ai bucket Cloud Storage nella stessa zona, Dataplex fornisce un elenco unificato di tabelle su cui puoi eseguire query utilizzando Spark.

Esplorare i dati utilizzando i blocchi note

Questa sezione descrive come creare, pianificare, condividere, importare ed esportare blocchi note.

Crea e salva un blocco note

  1. Nella console Google Cloud, vai alla pagina Esplora di Dataplex.

  2. Nella visualizzazione Esplora, seleziona un lago.

  3. Espandi il lake e fai clic sulla cartella Notebooks.

  4. Fai clic su Nuovo blocco note.

  5. Nel campo Percorso blocco note, fornisci il nome del blocco note.

  6. (Facoltativo) Nel campo Descrizione, fornisci una descrizione per il nuovo blocco note.

  7. (Facoltativo) Aggiungi etichette.

  8. Fai clic su Crea blocco note. Viene creato un blocco note.

  9. Per aprire il blocco note creato, fai clic su Apri blocco note.

  10. Seleziona un ambiente in cui Dataplex crei una sessione utente durante la creazione o l'apertura del blocco note. Assicurati di selezionare un ambiente con pacchetti che ritieni attendibili.

    Se non selezioni un ambiente, Dataplex utilizza l'ambiente predefinito. Se non hai un ambiente, creane uno. Per ulteriori informazioni, consulta Creare un ambiente.

    Ora puoi esplorare i tuoi dati scrivendo codice Python e salvando l'esplorazione post del blocco note. Successivamente, puoi visualizzare l'anteprima del blocco note creato ed esaminarne l'output senza creare una sessione ed eseguire il codice.

Pianifica un blocco note

Puoi pianificare un blocco note in modo che venga eseguito come attività Dataplex. Per maggiori informazioni, vedi Creare e gestire le pianificazioni per i blocchi note.

Condividi un blocco note

Puoi condividere un blocco note con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Seleziona il blocco note Jupyter che vuoi condividere.

  3. Fai clic su Condividi.

  4. Controlla le autorizzazioni. Aggiungi o rimuovi le autorizzazioni di visualizzatore, editor e amministratore per questo blocco note.

    Dopo aver condiviso un blocco note, gli utenti con autorizzazioni di visualizzazione o modifica a livello di lake possono accedere al blocco note e lavorare al blocco note condiviso.

Importa un blocco note

Puoi importare un blocco note da un bucket Cloud Storage:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Fai clic su Importa.

  3. Vai al bucket Cloud Storage che contiene il blocco note da importare.

  4. Seleziona il blocco note, inserisci un nome e fai clic su Importa.

    Il blocco note importato viene creato nella cartella Blocchi note. Puoi aprire, modificare, condividere e pianificare il blocco note importato.

Esporta un blocco note

Puoi esportare un blocco note in un bucket Cloud Storage in modo che possa essere utilizzato da altri utenti dell'organizzazione con autorizzazioni IAM.

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Contrassegna il blocco note che vuoi esportare.

  3. Fai clic sul menu e poi su Esporta.

  4. Inserisci il percorso Cloud Storage in cui vuoi esportare il blocco note.

  5. Fai clic su Esporta blocco note.

Passaggi successivi