Errori comuni di Esplora

Questa pagina mostra come risolvere i problemi relativi a Workbench di esplorazione dei dati in Dataplex.

Database non trovato

Quando esegui una query Spark da un workbench SQL o un blocco note Jupyter, si verifica un errore:

Script failed in execution.
org.apache.spark.sql.catalyst.parser.ParseException:
No viable alternative at input `zone-name`(line 1, pos24)

I nomi delle zone Dataplex sono mappati a nomi di database compatibili con Hive, che è possibile interrogare utilizzando Spark. I nomi delle zone Dataplex possono contenere un trattino (-), mentre i nomi dei database Hive non possono. Di conseguenza, i trattini nei nomi delle zone Dataplex sono mappati a trattini bassi (_) Nomi di database Hive.

Per risolvere il problema, segui questi passaggi:

  1. Ottieni un elenco dei database disponibili:

    show databases
    
  2. Esamina l'elenco dei nomi dei database restituiti e assicurati di eseguire query il nome corretto del database.

Tabella non trovata

Quando esegui una query Spark da un workbench SQL o un blocco note Jupyter, si verifica un errore:

Script failed in execution.
org.apache.spark.sql.AnalysisException: Table or view not found

Dataplex rileva i metadati per BigQuery gli asset di Cloud Storage e li rende accessibili mediante Dataproc Metastore (DPMS). Le query Spark su SQL Workbench o Jupyter notebook si connettono a DPMS durante l'esecuzione di query SQL per recuperare i metadati della tabella.

Per risolvere il problema, segui questi passaggi:

  1. Recupera l'elenco delle tabelle disponibili:

    show tables in DATABASE_NAME
    
  2. Assicurati di eseguire una query sul nome della tabella corretto.

  3. Se il nome della tabella contiene lettere maiuscole, imposta spark.sql.caseSensitive su true nella configurazione dell'ambiente.

Errori di autorizzazione

Le query Spark non riescono a causa di errori di autorizzazione. Ad esempio:

  • HiveException
  • TTransportException

Per utilizzare le funzionalità di esplorazione in Dataplex, devi disporre dei ruoli e delle autorizzazioni richiesti per le risorse Dataplex e gli asset sottostanti.

Per risolvere il problema di autorizzazione, svolgi i seguenti passaggi:

  • Assicurati di avere ricevuto le autorizzazioni e i ruoli richiesti per l'utilizzo nel workbench di esplorazione dei dati.
  • Assicurati di disporre di read autorizzazioni per l'infrastruttura Cloud Storage sottostante e BigQuery.
  • Per i pacchetti personalizzati, assicurati che l'agente di servizio Cloud Dataplex dispone di read autorizzazioni per il bucket Cloud Storage configurato in completamente gestito di Google Cloud.

Impossibile eliminare il lake contenente script o notebook

Quando elimini un lake utilizzato per Esplora Dataplex e se il lake contiene script o blocchi note, si verifica il seguente errore:

Failed to delete `projects/locations/region/lakes/lakename` since it has child
resources.

Dataplex Esplora richiede almeno un ambiente nel browser delle risorse.

Per risolvere il problema, utilizza una delle seguenti soluzioni alternative:

  • Utilizza i comandi dell'interfaccia a riga di comando di gcloud per eliminare gli script e i notebook dal lago, quindi elimina il lago.
  • Crea un ambiente temporaneo che attivi il browser delle risorse. Elimina tutto gli script e i blocchi note, seguiti dall'ambiente temporaneo e dal lake.

Job interrotto

Quando esegui una query Spark, il job viene interrotto in caso di errore critico.

Per risolvere il problema, fai riferimento al messaggio di errore per identificare la causa principale del il problema e risolverlo.

TTransportException durante l'esecuzione di query sulle tabelle Iceberg

Quando esegui una query su una tabella Iceberg ampia, si verifica TTransportException.

Iceberg presenta un problema noto su Spark 3.1, disponibile nelle immagini Dataproc 2.0 utilizzate da Dataplex Explore.

Per risolvere il problema, aggiungi un'altra proiezione nella query SELECT. Ad esempio:

SELECT a,b,c, 1 AS dummy FROM ICEBERG_TABLE

In questo esempio, 1 AS dummy è la proiezione aggiuntiva. Per ulteriori informazioni, consulta la pagina dei dettagli del problema.

I lake non vengono visualizzati nel browser delle risorse Esplora

L'esplorazione è disponibile per i laghi solo nei seguenti paesi: us-central1, europe-west2, europe-west1, us-east1, us-west1, asia-southeast1 e asia-northeast1 regioni. I laghi appartenenti a qualsiasi altra regione non vengono visualizzati nel browser di risorse di Esplora.

Impossibile iniziare a utilizzare l'esplorazione Dataplex

Nella console Google Cloud, nella pagina Dataplex, quando fai clic su Esplora, viene visualizzato il seguente messaggio:

In order to use Dataplex Explore to query data in CLoud Storage and BigQuery
using open soure applications (ex: SparkSQL), connect a metastore. Get started
by setting up one. If DPMS is already attached to the lake and you are seeing
this page, please check the DPMS logs for any possible issues.

Esplora funziona solo se in un lake è configurato un Dataproc Metastore (DPMS) e almeno una configurazione dell'ambiente.

Per risolvere il problema, collega il tuo lake a Dataproc Metastore.

Limitazioni delle quote

Quando crei un ambiente, potresti visualizzare errori relativi alla quota.

Per risolvere il problema, esamina le seguenti quote prima di creare una questo ambiente:

  • Puoi creare 10 ambienti per lake.
  • Puoi creare ambienti con un massimo di 150 nodi.
  • La durata delle singole sessioni utente è limitata a 10 ore.

Il tempo di avvio della sessione è lungo

Per avviare una nuova sessione sono necessari 2,5-3,5 minuti per utente. Una volta attivata, la sessione viene utilizzata per eseguire query e notebook successivi per lo stesso utente.

Per ridurre il tempo di avvio della sessione, crea un ambiente predefinito con l'avvio rapido abilitato.

Impossibile pianificare i notebook contenenti pacchetti Python personalizzati

Nella console Google Cloud, quando pianifichi un blocco note che contiene per i pacchetti Python, si verifica il seguente errore:

Selected environment ENVIRONMENT_NAME has additional Python
packages configured. These packages will not be available in the default runtime
for the scheduled notebook when scheduling in the Console. To make the required
additional Python packages available in the runtime, please create Notebook
Schedule using gcloud command instead, referencing a container image with
required additional packages.

Non puoi pianificare un notebook nella console Google Cloud se l'ambiente contiene pacchetti Python personalizzati.

Per risolvere il problema, utilizza l'interfaccia a riga di comando gcloud per pianificare i notebook contenenti pacchetti personalizzati.