Utilizzare il workbench di esplorazione dei dati

Il workbench di esplorazione dei dati in Dataplex (Esplora) ti consente di eseguire query su dati completamente regolati con accesso con un solo clic a Spark SQL e blocchi note Jupyter. Esplora ti consente di collaborare tra team con la pubblicazione, la condivisione e la ricerca integrate di risorse di programmazione.

Esplora il provisioning, scala e gestisce l'infrastruttura serverless necessari per eseguire gli script e i blocchi note Spark SQL utilizzando le credenziali utente. Puoi rendere operativo il tuo lavoro con la pianificazione serverless dal workbench.

Questo documento descrive come utilizzare le funzionalità di esplorazione in Dataplex.

Costi

Esplora le offerte Dataplex livello di elaborazione premium.

Terminologia

In questo documento vengono utilizzati i seguenti termini:

Ambiente

Un ambiente fornisce risorse di calcolo serverless per Spark SQL e blocchi note da eseguire all'interno di un lake. Un Dataplex che l'amministratore crea e gestisce gli ambienti.

Gli amministratori possono autorizzare uno o più utenti a eseguire query e blocchi note nell'ambiente configurato concedendogli Ruolo di sviluppatore o le autorizzazioni IAM associate.

Sessione

Quando un utente autorizzato sceglie un ambiente in cui eseguire le proprie query blocchi note, Dataplex utilizza la configurazione dell'ambiente specificata per creare una sessione attiva specifica per l'utente. In base all'ambiente configurazione, se una sessione non è in uso, termina automaticamente.

L'avvio di una nuova sessione richiede un paio di minuti per utente. Una volta che una sessione , esegue query e blocchi note successivi per lo stesso utente. Una sessione è attivo per un massimo di 10 ore.

Per un ambiente, Dataplex crea solo una sessione per utente, condivisa sia dagli script Spark SQL sia dai blocchi note Jupyter.

Dataplex utilizza le credenziali utente all'interno di una sessione per eseguire operazioni come l'esecuzione di query sui dati da Cloud Storage in BigQuery.

Nodo

Un nodo specifica la capacità di calcolo in una configurazione di ambiente. Un nodo viene mappato a 4 unità di calcolo dei dati (DCU), equivalenti a 4 vCPU e 16 GB di RAM.

Ambiente predefinito

Puoi creare un ambiente predefinito per ogni lake con ID default. Un ambiente predefinito deve utilizzare una configurazione predefinita. Una configurazione predefinita consiste di quanto segue:

  • Capacità di calcolo di un nodo
  • Dimensione del disco primario di 100 GB
  • Arresto automatico della sessione (tempo di arresto automatico) impostato su 10 minuti di tempo di inattività
  • Il parametro sessionSpec.enableFastStartup, che per impostazione predefinita è impostato su true. Se questo parametro è impostato su true, Dataplex esegue il pre-provisioning delle sessioni per questo ambiente in modo che siano che riduce il tempo di avvio iniziale della sessione.
  • Una sessione di avvio rapido è una sessione a nodo singolo, che Dataplex addebiti allo SKU Premium Processing simili a quelli di una normale sessione. È possibile indicare al massimo una sessione sempre attiva disponibile per un avvio rapido, che comporta costi anche quando non in uso. Dataplex mantiene attiva questa sessione pre-creata per 10 ore, la disattiva e poi crea una nuova sessione.

Se non selezioni esplicitamente un ambiente e hai configurato dell'ambiente in uso, Dataplex utilizza l'ambiente predefinito per creare sessioni.

Script SQL

Uno script SQL è uno script Spark SQL salvato come contenuto all'interno di un lake Dataplex. Puoi salvare lo script all'interno di un lake e la condividiamo con altre entità. Inoltre, puoi pianificarne l'esecuzione in batch un job Spark serverless in Dataplex. Dataplex abilita Accesso Spark SQL pronto all'uso alle tabelle mappate ai dati in Cloud Storage e BigQuery.

Blocco note

Un blocco note Python 3 è un blocco note Jupyter che viene salvato come contenuto lake Dataplex. Puoi salvare un blocco note come contenuto all'interno di un lake e condividerlo con altre entità, pianificarlo in modo che venga eseguito come Job batch Spark serverless di Dataproc in Dataplex.

Per i dati in BigQuery, puoi accedere a BigQuery direttamente tramite Spark senza utilizzare il comando magico %%bigquery.

Prima di iniziare

Prima di iniziare, collega il lake a Dataproc Metastore e concedi i i ruoli richiesti.

Collega il tuo lake a Dataproc Metastore (DPMS)

Per utilizzare Esplora, segui questi passaggi:

Scopri come configurare Dataproc Metastore con Dataplex per accedere ai metadati in Spark.

Ruoli obbligatori

A seconda delle azioni che prevedi di eseguire, sono necessari tutti i seguenti ruoli. Tutti gli ambienti in un lake ereditano le autorizzazioni concesse a livello di lake.

Ruoli IAM Dataplex:

  • Dataplex Viewer
  • Dataplex Developer
  • Dataplex Metadata Reader
  • Dataplex Data Reader

Ruoli aggiuntivi:

Logging

Per comprendere l'utilizzo di Esplora, consulta i seguenti documenti:

Limitazioni note

Questa sezione descrive i limiti noti di Esplora.

  • Esplora è disponibile per i laghi nelle seguenti regioni:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • Puoi utilizzare fino a 10 ambienti per regione in un progetto. Per informazioni per informazioni su come aumentare il limite di quota, consulta Utilizzo delle quote.

  • Puoi creare ambienti con un massimo di 150 nodi. Durata della sessione per le sessioni utente individuali è limitata a 10 ore.

  • Gli script Spark SQL possono eseguire query solo sui dati all'interno di un determinato lake. Se vuoi dei dati di una query in un lake diverso, devi passare a quel lake e selezionare all'interno del lake.

  • Dopo aver annullato l'eliminazione di un progetto, Dataplex non ripristina il contenuto come blocchi note o script SQL. Procedi con cautela quando l'eliminazione di un progetto con le risorse di contenuto Esplora.

  • Quando pianifichi un blocco note, se l'ambiente ha pacchetti personalizzati, può pianificare il blocco note solo utilizzando gcloud CLI. Per maggiori informazioni consulta l'articolo Pianificare blocchi note con pacchetti personalizzati.

  • Se elimini un ambiente prima di eliminare gli script e i blocchi note, non possono accedere alla pagina Esplora. Pertanto, assicurati di eliminare script e blocchi note prima di eliminare un ambiente in Esplora.

  • Le sessioni di esplorazione non supportano Hadoop Distributed File System (HDFS). Non archiviare i dati utente in una sessione di esplorazione perché vengono eliminati quando termina la sessione.

  • Le dimensioni massime di un blocco note o uno script SQL sono pari a 1 MB.

Creazione di un ambiente

  1. Nella console Google Cloud, vai a Dataplex Gestisci lake.

    Vai a Dataplex

  2. Seleziona un lake Dataplex per cui vuoi creare un completamente gestito di Google Cloud.

  3. Fai clic sulla scheda Ambienti.

  4. Fai clic su Crea ambiente.

  5. Nel campo Nome visualizzato, inserisci un nome per l'ambiente.

  6. In ID ambiente, inserisci un ID univoco.

  7. (Facoltativo) Inserisci una descrizione per il nuovo ambiente.

  8. Nel riquadro Configura computing, specifica quanto segue:

    1. Numero di nodi: il numero di nodi di cui eseguire il provisioning per le sessioni utente create per questo ambiente.
    2. Numero massimo di nodi: il numero massimo di nodi che Dataplex può scalare automaticamente nelle sessioni utente associate con questo ambiente.
    3. Dimensione del disco primario: la quantità di dimensione del disco associata a ogni di cui è stato eseguito il provisioning.
    4. Tempo di arresto automatico: il tempo di inattività dopo il quale Dataplex chiude automaticamente le sessioni utente associate completamente gestito di Google Cloud. Puoi impostare un minimo di 10 minuti e un massimo di 60 minuti.
  9. Nel riquadro Pacchetti software (facoltativo), puoi specificare ulteriori Pacchetti Python, file JAR e proprietà Spark da installare nelle sessioni utente di cui è stato eseguito il provisioning per questo ambiente.

    Quando crei un ambiente e fornisci il percorso Cloud Storage Pacchetti Java JAR o Python per l'installazione dei JAR da parte di Dataplex o pacchetti, assicurati che Cloud Dataplex L'agente di servizio dispone delle autorizzazioni necessarie per accedere a Cloud Storage .

  10. Fai clic su Crea.

Note

  • Un nodo è mappato a 4 unità di calcolo dei dati (DCU), equivalenti a 4 vCPU e 16 GB di RAM.

  • Puoi creare un ambiente con un nodo oppure con tre o più nodi.

  • Se sei un amministratore del lake, puoi configurare gli ambienti in anticipo, permettendo agli utenti di eseguire i carichi di lavoro utilizzando le configurazioni prestabilite.

  • Sebbene gli ambienti possano essere condivisi con più utenti, Dataplex crea una sessione separata per utente utilizzando l'ambiente configurazione.

Crea un ambiente predefinito

Consulta i requisiti di configurazione per un ambiente predefinito.

Console

  1. Apri Dataplex nella console Google Cloud.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Seleziona un lake Dataplex.

  4. Fai clic sulla scheda Ambienti.

  5. Fai clic su Crea ambiente predefinito.

gcloud

Per creare un ambiente predefinito con avvio rapido abilitato, esegui questo comando :

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Esplorare i dati utilizzando il workbench Spark SQL

Per esplorare i dati di BigQuery e Cloud Storage, utilizza Spark SQL script.

Creare e salvare uno script

  1. Nella console Google Cloud, vai a Dataplex Esplora .

  2. Nella visualizzazione Esplora, seleziona il lake contenente gli asset di dati che ti interessano. da esplorare.

  3. Nel browser delle risorse, espandi il lake. Vengono visualizzate le seguenti cartelle:

    • Dati: contiene tutti i database e le tabelle nell'istanza DPMS collegati al tuo lago, tra cui le tabelle dei lake Hudi, Iceberg e Delta.
    • Blocchi note: contiene tutti i blocchi note creati nel lake selezionato.
    • Script SQL Spark: contiene tutti gli script Spark SQL creati in il lake selezionato.
  4. Espandi Dati e seleziona il database e la tabella richiesti.

  5. Per utilizzare una query di esempio, fai clic su QUERY. Il workbench Spark SQL compila automaticamente una nuova scheda con una query di esempio.

  6. Per creare un nuovo script, fai clic su Nuovo script nell'editor SQL di Spark. e inserisci le query.

  7. Per salvare lo script, seleziona Salva > Salva script.

Esegui uno script

  1. Nell'editor SQL di Spark, fai clic sulla scheda con la query da eseguire.

  2. Fai clic su Seleziona ambiente. Seleziona l'ambiente in cui vuoi eseguire la query. Se non selezioni un ambiente, Dataplex utilizza l'ambiente predefinito per creare una sessione per utente.

    Puoi eseguire più query Spark SQL nello stesso script separando le query con il punto e virgola.

  3. Fai clic su Esegui.

  4. Visualizzare i risultati della Cronologia delle query per ogni query nello script utilizzando l'elenco a discesa.

Pianificare uno script

Puoi pianificare l'esecuzione di uno script come attività Dataplex. Per saperne di più, consulta Creare e gestire pianificazioni per gli script SQL.

Condividere uno script

Puoi condividere uno script con altre persone nell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sullo script Spark SQL che vuoi condividere.

  2. Nel menu Altro, fai clic su Condividi.

  3. Rivedi le autorizzazioni. Aggiungere o rimuovere visualizzatore, editor e amministratore le autorizzazioni per lo script condiviso.

Dopo aver condiviso uno script, gli utenti con autorizzazioni di visualizzazione o modifica a livello di lake accedere al lake e lavorare allo script condiviso.

Esplorare i dati di BigQuery e Cloud Storage con Spark SQL

Per qualsiasi set di dati BigQuery aggiunto come asset a una zona, Dataplex consente l'accesso diretto a Spark SQL a tutte le tabelle del set di dati. Puoi eseguire query sui dati in Dataplex utilizzando gli script Spark SQL o blocchi note. Ad esempio:

 select * from ZONE_ID.TABLE_ID

Se i tuoi asset sono mappati ai bucket Cloud Storage nella stessa zona, Dataplex fornisce un elenco unificato di tabelle che puoi utilizzando Spark.

Esplorare i dati utilizzando i blocchi note

Questa sezione descrive come creare, pianificare, condividere, importare ed esportare blocchi note.

Crea e salva un blocco note

  1. Nella console Google Cloud, vai a Dataplex Esplora .

  2. Nella visualizzazione Esplora, seleziona un lake.

  3. Espandi il lake e fai clic sulla cartella Blocchi note.

  4. Fai clic su Nuovo blocco note.

  5. Nel campo Percorso blocco note, specifica il nome del blocco note.

  6. (Facoltativo) Nel campo Descrizione, fornisci una descrizione della nuova un blocco note.

  7. (Facoltativo) Aggiungi etichette.

  8. Fai clic su Crea blocco note. Ora è stato creato un blocco note.

  9. Per aprire il blocco note creato, fai clic su Apri blocco note.

  10. Seleziona un ambiente in cui vuoi che Dataplex crei sessione utente, quando crei o apri il blocco note. Assicurati di e selezionare un ambiente con pacchetti che ritieni attendibili.

    Se non selezioni un ambiente, Dataplex utilizza il valore predefinito completamente gestito di Google Cloud. Se non hai un ambiente, creane uno. Per maggiori informazioni informazioni, consulta Creare un ambiente.

    Ora puoi esplorare i tuoi dati scrivendo codice Python e salvando il blocco note post-esplorazione. In seguito, puoi visualizzare l'anteprima del blocco note creato ed esaminarne senza creare una sessione ed eseguire il codice.

Pianifica un blocco note

Puoi pianificare l'esecuzione di un blocco note come attività Dataplex. Per saperne di più, vedi Creare e gestire pianificazioni per i blocchi note.

Condividere un blocco note

Puoi condividere un blocco note con altri utenti dell'organizzazione utilizzando le autorizzazioni IAM:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Seleziona il blocco note Jupyter che vuoi condividere.

  3. Fai clic su Condividi.

  4. Rivedi le autorizzazioni. Aggiungere o rimuovere visualizzatore, editor e amministratore autorizzazioni per questo blocco note.

    Dopo aver condiviso un blocco note, gli utenti con autorizzazioni di visualizzazione o modifica sul lake possono accedere al lake e lavorare sul blocco note condiviso.

Importa un blocco note

Puoi importare un blocco note da un bucket Cloud Storage:

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Fai clic su Importa.

  3. Accedi al bucket Cloud Storage che contiene il blocco note che vuoi importare.

  4. Seleziona il blocco note, fornisci un nome e fai clic su Importa.

    Il blocco note importato viene creato nella cartella Blocchi note. Puoi aprire, modificare, condividere e pianificare il blocco note importato.

Esporta un blocco note

Puoi esportare un blocco note in un bucket Cloud Storage in modo utilizzati da altri nell'organizzazione con autorizzazioni IAM.

  1. Nella visualizzazione Esplora, fai clic sulla cartella Blocchi note.

  2. Contrassegna il blocco note che vuoi esportare.

  3. Fai clic sul menu e seleziona Esporta:

  4. Inserisci il percorso Cloud Storage in cui vuoi esportare il blocco note.

  5. Fai clic su Esporta blocco note.

Passaggi successivi