Errori di esplorazione comuni

Questa pagina mostra come risolvere i problemi con Databench di esplorazione dei dati in Dataplex.

Database non trovato

Quando esegui una query Spark da Workbench SQL o blocco note Jupyter, si verifica il seguente errore:

Script failed in execution.
org.apache.spark.sql.catalyst.parser.ParseException:
No viable alternative at input `zone-name`(line 1, pos24)

I nomi delle zone Dataplex sono mappati a nomi di database compatibili con Hive, su cui è possibile eseguire query su Spark. I nomi di zona Dataplex possono contenere un trattino (-), mentre i nomi di database Hive non possono. Di conseguenza, i trattini nei nomi delle zone Dataplex sono mappati a trattini bassi (_) nei nomi dei database Hive.

Per risolvere il problema:

  1. Ecco un elenco dei database disponibili:

    show databases
    
  2. Esamina l'elenco dei nomi dei database restituiti e assicurati di eseguire query sul nome di database corretto.

Tabella non trovata

Quando esegui una query Spark da Workbench SQL o blocco note Jupyter, si verifica il seguente errore:

Script failed in execution.
org.apache.spark.sql.AnalysisException: Table or view not found

Dataplex rileva i metadati per gli asset di BigQuery e Cloud Storage e li rende accessibili tramite Dataproc Metastore (DPMS). Le query Spark su blocchi di lavoro SQL o blocchi note Jupyter si connettono al DPMS durante l'esecuzione di query SQL per ottenere i metadati della tabella.

Per risolvere il problema:

  1. Scarica l'elenco delle tabelle disponibili:

    show tables in DATABASE_NAME
    
  2. Assicurati di eseguire una query sul nome della tabella corretto.

  3. Se il nome della tabella contiene lettere maiuscole, imposta spark.sql.caseSensitive su true nella configurazione dell'ambiente.

Errori di autorizzazione

Query non riuscite con errori di autorizzazione. Ad esempio:

  • HiveException
  • TTransportException

Per utilizzare la funzionalità Esplora in Dataplex, devi disporre dei ruoli e delle autorizzazioni richiesti per le risorse e i asset sottostanti.

Per risolvere il problema di autorizzazione:

  • Assicurati di disporre dei ruoli e delle autorizzazioni richiesti per l'utilizzo del workbench di esplorazione dei dati.
  • Assicurati di disporre delle autorizzazioni read sugli asset sottostanti di Cloud Storage e BigQuery.
  • Per i pacchetti personalizzati, assicurati che l'agente di servizio Cloud Dataplex abbia le autorizzazioni read nel bucket Cloud Storage configurato nell'ambiente.

Impossibile eliminare il lake contenente script o blocchi note

Quando elimini un lake utilizzato per Esplora di Dataplex e se il lake contiene script o blocchi note, si verifica il seguente errore:

Failed to delete `projects/locations/region/lakes/lakename` since it has child
resources.

Dataplex Explore richiede la presenza di almeno un ambiente nel browser delle risorse.

Per risolvere il problema, utilizza una delle seguenti soluzioni alternative:

  • Utilizza i comandi dell'interfaccia a riga di comando gcloud per eliminare script e blocchi note dal lake, quindi eliminare il lake.
  • Creare un ambiente temporaneo che abilita il browser delle risorse. Elimina tutti gli script e i blocchi note, seguiti dall'ambiente temporaneo e dal lake.

Job interrotto

Quando esegui una query Spark, il job viene interrotto se si verifica un errore critico.

Per risolvere il problema, consulta il messaggio di errore per identificare la causa principale e risolverlo.

TTransportException durante l'esecuzione di query sulle tabelle Iceberg

Quando esegui una query su un'ampia tabella Iceberg, si verifica il criterio TTransportException.

Iceberg ha un problema noto su Spark 3.1 disponibile sulle immagini Dataproc 2.0 utilizzate da Dataplex Explore.

Per risolvere il problema, aggiungi una proiezione aggiuntiva nella query SELECT. Ad esempio:

SELECT a,b,c, 1 AS dummy FROM ICEBERG_TABLE

In questo esempio, 1 AS dummy è la proiezione aggiuntiva. Per maggiori informazioni, consulta la pagina dei dettagli del problema.

I lake non vengono visualizzati nel browser delle risorse Esplora

La funzionalità Esplora è disponibile solo per i laghi delle regioni us-central1, europe-west2, europe-west1, us-east1, us-west1, asia-southeast1, asia-northeast1. I lake che appartengono a qualsiasi altra area geografica non vengono visualizzati nel browser delle risorse Esplora.

Impossibile iniziare a utilizzare Dataplex Explore

Nella console Google Cloud, nella pagina Dataplex, quando fai clic su Esplora, viene visualizzato il seguente messaggio:

In order to use Dataplex Explore to query data in CLoud Storage and BigQuery
using open soure applications (ex: SparkSQL), connect a metastore. Get started
by setting up one. If DPMS is already attached to the lake and you are seeing
this page, please check the DPMS logs for any possible issues.

L'esplorazione funziona solo se un lake ha configurato Dataproc Metastore (DPMS) e almeno una configurazione dell'ambiente.

Per risolvere il problema, collega il tuo lake a Dataproc Metastore.

Limitazioni delle quote

Quando crei un ambiente, potresti notare errori relativi alla quota.

Per risolvere il problema, esamina le quote seguenti prima di creare un ambiente:

  • Puoi creare 10 ambienti per lake.
  • Puoi creare ambienti con un massimo di 150 nodi.
  • La durata di sessioni individuali è di 10 ore.

Il tempo di avvio della sessione è lungo

L'avvio di una nuova sessione per utente richiede 2,5-3,5 minuti. Una sessione attiva è utilizzata per eseguire query e blocchi note successivi per lo stesso utente.

Per ridurre il tempo di avvio della sessione, crea un ambiente predefinito con l'avvio veloce abilitato.

Impossibile pianificare i blocchi note contenenti pacchetti Python personalizzati

Nella console Google Cloud, quando pianifichi un blocco note che contiene pacchetti Python personalizzati, si verifica il seguente errore:

Selected environment ENVIRONMENT_NAME has additional Python
packages configured. These packages will not be available in the default runtime
for the scheduled notebook when scheduling in the Console. To make the required
additional Python packages available in the runtime, please create Notebook
Schedule using gcloud command instead, referencing a container image with
required additional packages.

Non puoi pianificare un blocco note nella console Google Cloud se l'ambiente ha pacchetti Python personalizzati.

Per risolvere questo problema, utilizza gcloud CLI per pianificare blocchi note contenenti pacchetti personalizzati.