Erros comuns no recurso "Explorar"

Esta página mostra como resolver problemas com a área de trabalho de análise de dados no Dataplex.

Banco de dados não encontrado

Ao executar uma consulta do Spark no workbench do SQL ou no notebook do Jupyter, ocorre o seguinte erro:

Script failed in execution.
org.apache.spark.sql.catalyst.parser.ParseException:
No viable alternative at input `zone-name`(line 1, pos24)

Os nomes de zona do Dataplex são mapeados para nomes de banco de dados compatíveis com o Hive, que podem ser consultados usando o Spark. Os nomes de zona do Dataplex podem conter um hífen (-), mas os nomes de banco de dados do Hive não podem. Portanto, os hifens nos nomes de zona do Dataplex são mapeados para sublinhados (_) nos nomes de banco de dados do Hive.

Para resolver o problema, siga estas etapas:

  1. Confira uma lista de bancos de dados disponíveis:

    show databases
    
  2. Revise a lista de nomes de bancos de dados retornados e verifique se você está consultando o nome correto do banco de dados.

Tabela não encontrada

Ao executar uma consulta do Spark no workbench do SQL ou no notebook do Jupyter, ocorre o seguinte erro:

Script failed in execution.
org.apache.spark.sql.AnalysisException: Table or view not found

O Dataplex descobre os metadados dos recursos do BigQuery e do Cloud Storage e os torna acessíveis usando a Dataproc Metastore (DPMS). Consultas Spark no SQL workbench ou no Jupyter notebooks se conectam ao DPMS enquanto executam consultas SQL para obter os metadados da tabela.

Para resolver o problema, siga estas etapas:

  1. Confira a lista de tabelas disponíveis:

    show tables in DATABASE_NAME
    
  2. Verifique se você está consultando o nome correto da tabela.

  3. Se o nome da tabela tiver letras maiúsculas, defina spark.sql.caseSensitive. como true na configuração do ambiente.

Erros de permissão

As consultas Spark falham com erros de permissão. Exemplo:

  • HiveException
  • TTransportException

Para usar os recursos de análise no Dataplex, você precisa receber as funções e permissões necessárias nos recursos do Dataplex e nos recursos subjacentes.

Para resolver o problema de permissão, siga estas etapas:

  • Verifique se você tem os papéis e as permissões necessárias para usar a plataforma de análise de dados.
  • Verifique se você tem permissões read no Cloud Storage subjacente e recursos do BigQuery.
  • Para pacotes personalizados, verifique se o agente de serviço do Cloud Dataplex tem permissões read no bucket do Cloud Storage configurado no de nuvem.

Não foi possível excluir o lake que contém scripts ou notebooks

Ao excluir um lake usado pelo Dataplex Explore e se ele tiver scripts ou notebooks, o seguinte erro vai ocorrer:

Failed to delete `projects/locations/region/lakes/lakename` since it has child
resources.

O Dataplex Explore requer pelo menos um ambiente presente no navegador de recursos.

Para resolver esse problema, use um dos métodos a seguir.

  • Use os comandos da gcloud CLI para excluir scripts e notebooks do lago e, em seguida, exclua o lago.
  • Crie um ambiente temporário que ative o navegador de recursos. Exclua todos os scripts e cadernos, seguidos pelo ambiente temporário e pelo lago.

Job aborted

Quando você executa uma consulta Spark, o job é cancelado se houver um erro crítico.

Para resolver esse problema, consulte a mensagem de erro para identificar a causa raiz dos o problema e corrigi-lo.

TTransportException ao consultar tabelas do Iceberg

Quando você consulta uma tabela Iceberg ampla, o TTransportException ocorre.

O Iceberg tem um problema conhecido no Spark 3.1, que está disponível em imagens do Dataproc 2.0 usadas pelo Explorar do Dataplex.

Para resolver esse problema, adicione uma projeção extra na consulta SELECT. Exemplo:

SELECT a,b,c, 1 AS dummy FROM ICEBERG_TABLE

Neste exemplo, 1 AS dummy é a projeção extra. Para mais informações, consulte a página de detalhes do problema.

Os lagos não aparecem no navegador de recursos do recurso "Explorar"

O recurso "Explorar" está disponível para lagos apenas nestes locais: us-central1, europe-west2, europe-west1, us-east1, us-west1, asia-southeast1 e asia-northeast1 ou várias regiões. Lagos que pertencem a qualquer outra região não aparecem no navegador de recursos da seção "Explorar".

Não foi possível começar a usar o Dataplex Explore

No console do Google Cloud, no Dataplex Quando você clicar em Explorar, a seguinte mensagem vai aparecer:

In order to use Dataplex Explore to query data in CLoud Storage and BigQuery
using open soure applications (ex: SparkSQL), connect a metastore. Get started
by setting up one. If DPMS is already attached to the lake and you are seeing
this page, please check the DPMS logs for any possible issues.

A Análise funciona apenas se um lake tem um metastore do Dataproc (DPMS) configurado e pelo menos uma configuração de ambiente.

Para resolver esse problema, vincule seu lake ao Metastore do Dataproc.

Restrições de cota

Ao criar um ambiente, você pode encontrar erros relacionados à cota.

Para resolver esse problema, revise as cotas a seguir antes de criar um de nuvem:

  • É possível criar 10 ambientes por lake.
  • É possível criar ambientes com até 150 nós.
  • A duração das sessões de usuários individuais é restrita a 10 horas.

O tempo de inicialização da sessão é longo

Demora de 2,5 a 3,5 minutos para iniciar uma nova sessão por usuário. Assim que uma sessão for ativo, ele é usado para executar consultas e notebooks subsequentes para o mesmo usuário.

Para reduzir o tempo de inicialização da sessão, criar um ambiente padrão com a inicialização rápida ativada.

Não foi possível programar notebooks que contêm pacotes Python personalizados

No console do Google Cloud, quando você programa um notebook que contém Pacotes Python, o seguinte erro ocorre:

Selected environment ENVIRONMENT_NAME has additional Python
packages configured. These packages will not be available in the default runtime
for the scheduled notebook when scheduling in the Console. To make the required
additional Python packages available in the runtime, please create Notebook
Schedule using gcloud command instead, referencing a container image with
required additional packages.

Não é possível programar um notebook no console do Google Cloud se o ambiente tiver pacotes Python personalizados.

Para resolver esse problema, use a CLI gcloud para programar notebooks com pacotes personalizados.