Errori comuni di Esplora

Questa pagina mostra come risolvere i problemi relativi al workbench di esplorazione dei dati in Dataplex.

Database non trovato

Quando esegui una query Spark da SQL Workbench o dal blocco note Jupyter, si verifica il seguente errore:

Script failed in execution.
org.apache.spark.sql.catalyst.parser.ParseException:
No viable alternative at input `zone-name`(line 1, pos24)

I nomi delle zone Dataplex sono mappati a nomi di database compatibili con Hive ed è possibile eseguire query su cui è possibile eseguire query utilizzando Spark. I nomi delle zone Dataplex possono contenere un trattino (-), mentre i nomi dei database Hive non possono. Di conseguenza, i trattini nei nomi delle zone Dataplex sono mappati ai trattini bassi (_) nei nomi del database Hive.

Per risolvere il problema:

  1. Ottieni un elenco dei database disponibili:

    show databases
    
  2. Esamina l'elenco dei nomi di database restituiti e assicurati di eseguire la query sul nome del database corretto.

Tabella non trovata

Quando esegui una query Spark da SQL Workbench o dal blocco note Jupyter, si verifica il seguente errore:

Script failed in execution.
org.apache.spark.sql.AnalysisException: Table or view not found

Dataplex rileva i metadati per gli asset BigQuery e Cloud Storage e li rende accessibili utilizzando Dataproc Metastore (DPMS). Le query Spark su Workbench SQL o blocchi note Jupyter si connettono a DPMS durante l'esecuzione di query SQL per ottenere i metadati della tabella.

Per risolvere il problema:

  1. Ottieni l'elenco delle tabelle disponibili:

    show tables in DATABASE_NAME
    
  2. Assicurati di eseguire la query sul nome della tabella corretto.

  3. Se il nome della tabella contiene lettere maiuscole, imposta spark.sql.caseSensitive su true nella configurazione dell'ambiente.

Errori di autorizzazione

Le query Spark non vanno a buon fine a causa di errori di autorizzazione. Ad esempio:

  • HiveException
  • TTransportException

Per utilizzare le funzionalità di Esplora in Dataplex, devi disporre dei ruoli e delle autorizzazioni richiesti per le risorse Dataplex e gli asset sottostanti.

Per risolvere il problema di autorizzazione, procedi nel seguente modo:

  • Assicurati di disporre delle autorizzazioni e dei ruoli richiesti per utilizzare il workbench di esplorazione dei dati.
  • Assicurati di disporre delle autorizzazioni read per gli asset Cloud Storage e BigQuery sottostanti.
  • Per i pacchetti personalizzati, assicurati che l'agente di servizio Cloud Dataplex disponga delle autorizzazioni read per il bucket Cloud Storage configurato nell'ambiente.

Impossibile eliminare il lake contenente script o blocchi note

Quando elimini un lake utilizzato per Dataplex Explore e se il lake contiene script o blocchi note, si verifica il seguente errore:

Failed to delete `projects/locations/region/lakes/lakename` since it has child
resources.

Dataplex Explore richiede almeno un ambiente nel browser delle risorse.

Per risolvere il problema, utilizza una delle seguenti soluzioni alternative:

  • Utilizza i comandi gcloud CLI per eliminare script e blocchi note dal lake, quindi eliminalo.
  • Crea un ambiente temporaneo che abiliti il browser delle risorse. Elimina tutti gli script e i blocchi note, seguiti dall'ambiente temporaneo e dal lake.

Job interrotto

Quando esegui una query Spark, il job viene interrotto se si verifica un errore critico.

Per risolvere il problema, fai riferimento al messaggio di errore per identificare la causa principale e risolvere il problema.

Eccezione TTransportException durante l'esecuzione di query sulle tabelle Iceberg

Quando esegui una query su una tabella Iceberg ampia, si verifica il TTransportException.

Iceberg presenta un problema noto su Spark 3.1, disponibile sulle immagini Dataproc 2.0 utilizzate da Dataplex Explore.

Per risolvere il problema, aggiungi una proiezione aggiuntiva nella query SELECT. Ad esempio:

SELECT a,b,c, 1 AS dummy FROM ICEBERG_TABLE

In questo esempio, 1 AS dummy è la proiezione aggiuntiva. Per ulteriori informazioni, visita la pagina dei dettagli del problema.

I lake non vengono visualizzati nel browser delle risorse Explore

L'esplorazione è disponibile per i laghi solo nelle regioni us-central1, europe-west2, europe-west1, us-east1, us-west1, asia-southeast1 e asia-northeast1. I lake che appartengono a qualsiasi altra regione non vengono visualizzati nel browser delle risorse Esplora.

Impossibile iniziare a utilizzare Dataplex Explore

Nella pagina Dataplex della console Google Cloud, quando fai clic su Esplora, viene visualizzato il seguente messaggio:

In order to use Dataplex Explore to query data in CLoud Storage and BigQuery
using open soure applications (ex: SparkSQL), connect a metastore. Get started
by setting up one. If DPMS is already attached to the lake and you are seeing
this page, please check the DPMS logs for any possible issues.

L'esplorazione funziona solo se in un lake è configurato un Dataproc Metastore (DPMS) e almeno un ambiente è configurato.

Per risolvere il problema, collega il tuo lake a Dataproc Metastore.

Limitazioni di quota

Quando crei un ambiente, potresti visualizzare errori relativi alle quote.

Per risolvere questo problema, esamina le quote seguenti prima di creare un ambiente:

  • Puoi creare 10 ambienti per lake.
  • Puoi creare ambienti con un massimo di 150 nodi.
  • La durata delle sessioni dei singoli utenti è limitata a 10 ore.

Il tempo di avvio della sessione è lungo

Sono necessari 2,5-3,5 minuti per avviare una nuova sessione per utente. Una volta che una sessione è attiva, viene utilizzata per eseguire query e blocchi note successive per lo stesso utente.

Per ridurre il tempo di avvio della sessione, crea un ambiente predefinito con l'avvio rapido abilitato.

Impossibile pianificare i blocchi note contenenti pacchetti Python personalizzati

Nella console Google Cloud, quando pianifichi un blocco note che contiene pacchetti Python personalizzati, si verifica il seguente errore:

Selected environment ENVIRONMENT_NAME has additional Python
packages configured. These packages will not be available in the default runtime
for the scheduled notebook when scheduling in the Console. To make the required
additional Python packages available in the runtime, please create Notebook
Schedule using gcloud command instead, referencing a container image with
required additional packages.

Non puoi pianificare un blocco note nella console Google Cloud se l'ambiente ha pacchetti Python personalizzati.

Per risolvere il problema, utilizza gcloud CLI per pianificare i blocchi note contenenti pacchetti personalizzati.