Usar o workbench de exploração de dados

O workbench de exploração de dados no Dataplex (Explore) permite consultar interativamente dados totalmente controlados com acesso com um clique a scripts SQL do Spark e notebooks do Jupyter. O recurso Analisar permite colaborar entre equipes com publicação, compartilhamento e pesquisa integrados de recursos de programação.

Conheça as disposições, o escalonamento e o gerenciamento da infraestrutura sem servidor necessária para executar scripts e notebooks Spark SQL usando credenciais de usuário. Você pode operacionalizar seu trabalho com programação sem servidor no Workbench.

Este documento descreve como usar os recursos do Explore no Dataplex.

Custos

O Dataplex oferece o recurso Explore no nível de processamento premium.

Terminologia

Neste documento, usamos os seguintes termos:

Ambiente

Um ambiente fornece recursos de computação sem servidor para consultas e notebooks do Spark SQL serem executados em um lake. Um administrador do Dataplex cria e gerencia ambientes.

Os administradores podem autorizar um ou mais usuários a executar consultas e notebooks no ambiente configurado concedendo a eles o papel de desenvolvedor ou as permissões do IAM associadas.

Sessão

Quando um usuário autorizado escolhe um ambiente para executar consultas e notebooks, o Dataplex usa a configuração do ambiente especificada para criar uma sessão ativa específica do usuário. Dependendo da configuração do ambiente, se uma sessão não estiver em uso, ela será encerrada automaticamente.

O início de uma nova sessão por usuário leva alguns minutos. Depois que uma sessão é iniciada, ela executa consultas e notebooks subsequentes para o mesmo usuário. Uma sessão fica ativa por no máximo 10 horas.

Para um ambiente, o Dataplex cria apenas uma sessão por usuário, que é compartilhada por scripts SQL do Spark e notebooks do Jupyter.

O Dataplex usa as credenciais do usuário em uma sessão para executar operações, como consultar os dados do Cloud Storage e do BigQuery.

Nó

Um nó especifica a capacidade de computação em uma configuração de ambiente. Um nó é mapeado para quatro unidades de computação de dados (DCU, na sigla em inglês), o que é comparável a 4 vCPUs e 16 GB de RAM.

Ambiente padrão

É possível criar um ambiente padrão por lake com o ID default. Um ambiente padrão precisa usar uma configuração padrão. Uma configuração padrão consiste no seguinte:

Capacidade de computação de um nó
Tamanho do disco principal de 100 GB
Encerramento automático da sessão (tempo de encerramento automático) definido como 10 minutos de tempo de inatividade
O parâmetro sessionSpec.enableFastStartup, que é definido por padrão como true. Quando ele é definido como true, o Dataplex provisiona as sessões desse ambiente para que estejam prontamente disponíveis, o que reduz o tempo de inicialização da sessão inicial.
Uma sessão de inicialização rápida consiste em uma sessão de nó único, que o Dataplex cobra com taxas da SKU de processamento premium de maneira semelhante a uma sessão normal. No máximo uma sessão sempre ativada está disponível para inicialização rápida, o que incorre em custos mesmo quando não está em uso. O Dataplex mantém essa sessão pré-criada ativa por 10 horas, a desliga e cria uma nova sessão.

Se você não selecionar um ambiente explicitamente e tiver configurado um ambiente padrão com antecedência, o Dataplex vai usá-lo para criar sessões.

Script do SQL

Um script SQL é um script Spark SQL que é salvo como conteúdo em um lake do Dataplex. É possível salvar o script em um lake e compartilhá-lo com outras principais. Além disso, é possível programá-lo para ser executado como um job do Spark sem servidor em lote no Dataplex. O Dataplex permite o acesso pronto para uso do Spark SQL a tabelas mapeadas para dados no Cloud Storage e no BigQuery.

Notebook

Um notebook do Python 3 é um notebook do Jupyter que você salva como conteúdo em um lake do Dataplex. Salve um notebook como conteúdo em um lake e compartilhe-o com outros principais ou programe-o para ser executado como um job em lote do Spark sem servidor do Dataproc no Dataplex.

Para dados no BigQuery, é possível acessar as tabelas do BigQuery diretamente pelo Spark, sem usar o comando mágico %%bigquery.

Antes de começar

Antes de começar, vincule seu lake ao metastore do Dataproc e conceda os papéis necessários.

Vincular seu lake ao metastore do Dataproc (DPMS)

Para usar a ferramenta Analisar, faça o seguinte:

Associe uma instância de Metastore do Dataproc (DPMS) ativado para gRPC na versão 3.1.2 ou posterior ao lake do Dataplex.
Verifique se você tem um metastore do Dataproc e um ambiente mapeado para seu lake.

Saiba como configurar o metastore do Dataproc com o Dataplex para acessar metadados no Spark.

Funções exigidas

Dependendo das ações que você planeja executar, todos os papéis do IAM a seguir serão necessários. Todos os ambientes em um lake herdam as permissões concedidas no nível do lake.

Papéis do IAM do Dataplex:

Leitor do Dataplex
Desenvolvedor do Dataplex
Leitor de metadados do Dataplex
Leitor de dados do Dataplex

Papéis adicionais:

Geração de registros

Para entender o uso do recurso Explorar, consulte os seguintes documentos:

Limitações conhecidas

Nesta seção, descrevemos as limitações conhecidas do recurso Analisar.

A Análise está disponível para lakes nas seguintes regiões:
- asia-northeast1
- asia-southeast1
- europe-west1
- europe-west2
- us-central1
- us-east1
- us-west1
É possível usar até 10 ambientes por região em um projeto. Para mais informações sobre como aumentar o limite de cota, consulte Como trabalhar com cotas.
É possível criar ambientes com, no máximo, 150 nós. A duração para sessões individuais de usuários é restrita a 10 horas.
Os scripts SQL do Spark só podem consultar dados em um determinado lake. Para consultar dados em um lake diferente, alterne para esse lake e selecione um ambiente dentro dele.
Depois que você cancela a exclusão de um projeto, o Dataplex não restaura recursos de conteúdo, como scripts ou notebooks SQL. Prossiga com cuidado ao excluir um projeto usando os recursos de conteúdo do Explore.
Ao programar um notebook, se o ambiente tiver pacotes personalizados, será possível programá-lo usando somente a CLI gcloud. Para mais informações, consulte Programar notebooks com pacotes personalizados.
Se você excluir um ambiente antes de excluir os scripts e notebooks, não será possível acessar a página "Explorar". Portanto, exclua os scripts e notebooks antes de excluir um ambiente em Explore.
As sessões "Explore" não são compatíveis com os sistemas de arquivos distribuídos do Hadoop (HDFS, na sigla em inglês). Não armazene dados do usuário em uma sessão do Explore, porque eles serão excluídos quando a sessão terminar.
O limite de tamanho máximo para um notebook ou script SQL é de 1 MB.

Criar um ambiente

No console do Google Cloud, acesse a página Gerenciar lakes do Dataplex.

Acessar o Dataplex
Selecione um lake do Dataplex para o qual você quer criar um ambiente.
Clique na guia Environments.
Clique em Criar ambiente.
No campo Nome de exibição, digite um nome para o ambiente.
Em ID do ambiente, insira um ID exclusivo.
Opcional: insira uma descrição para o novo ambiente.
No painel Configurar computação, especifique o seguinte:
1. Número de nós: o número de nós a serem provisionados para sessões de usuário criadas para esse ambiente.
2. Número máximo de nós: o número máximo de nós que o Dataplex pode escalonar automaticamente nas sessões do usuário associadas a esse ambiente.
3. Tamanho do disco principal: a quantidade de tamanho do disco associado a cada nó provisionado.
4. Tempo de encerramento automático: o tempo de inatividade após o qual o Dataplex encerra automaticamente as sessões de usuário associadas a esse ambiente. É possível definir um mínimo de 10 minutos e um máximo de 60 minutos.
No painel Pacotes de software (opcional), especifique outros pacotes Python, arquivos JAR e propriedades do Spark para instalar em sessões de usuário provisionadas para esse ambiente.

Ao criar um ambiente e fornecer o caminho do Cloud Storage para pacotes Java JARs ou Python, para que o Dataplex instale os JARs ou pacotes, verifique se o agente de serviço do Cloud Dataplex tem as permissões necessárias para acessar os arquivos do Cloud Storage.
Clique em Criar.

Observações

Um nó é mapeado para quatro unidades de computação de dados (DCU, na sigla em inglês), o que é comparável a 4 vCPUs e 16 GB de RAM.
É possível criar um ambiente com um nó ou com três nós ou mais.
Se você for um administrador de lake, poderá configurar ambientes com antecedência, permitindo que os usuários executem cargas de trabalho usando as configurações pré-especificadas.
Embora os ambientes possam ser compartilhados com vários usuários, o Dataplex cria uma sessão separada por usuário utilizando a configuração do ambiente.

Criar um ambiente padrão

Veja os requisitos de configuração de um ambiente padrão.

Console

Abra o Dataplex no console do Google Cloud.

Acessar o Dataplex
Navegue até a visualização Gerenciar.
Selecione um lake do Dataplex.
Clique na guia Environments.
Clique em Criar ambiente padrão.

gcloud

Para criar um ambiente padrão com a inicialização rápida ativada, execute o seguinte comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Analise dados usando o workbench do Spark SQL

Para explorar os dados do BigQuery e do Cloud Storage, use scripts do Spark SQL.

Criar e salvar um script

No console do Google Cloud, acesse a página Explorar do Dataplex.
Na visualização Explorar, selecione o lake que contém os recursos de dados que você quer explorar.
No navegador de recursos, expanda o lake. As seguintes pastas serão exibidas:
- Dados: contém todos os bancos de dados e tabelas na instância do DPMS conectada ao seu lake, incluindo as tabelas Hudi, Iceberg e Delta Lake.
- Notebooks: contém todos os notebooks criados no lake selecionado.
- Scripts do Spark SQL: contêm todos os scripts do Spark SQL criados no lake selecionado.
Expanda Dados e selecione o banco de dados e a tabela necessários.
Para usar um exemplo de consulta, clique em CONSULTA. O workbench do Spark SQL preenche automaticamente uma nova guia com um exemplo de consulta.
Para criar um novo script, no Editor de SQL do Spark, clique em Novo script e insira suas consultas.
Para salvar o script, selecione Salvar > Salvar script.

Observação: o metastore do Dataproc representa uma zona do Dataplex como banco de dados e identifica um script SQL do Spark como zone-id.table-id.
Se você receber um erro database not found, execute show databases no Editor de SQL do Spark e verifique o nome do banco de dados.

Executar um script

No Spark SQL Editor, clique na guia com a consulta que você quer executar.
Clique em Selecionar ambiente. Selecione o ambiente em que você quer executar a consulta. Se você não selecionar um ambiente, o Dataplex usará o ambiente padrão para criar uma sessão por usuário.

Separe as consultas por ponto e vírgula para executar várias consultas Spark SQL no mesmo script.
Clique em Executar.
Use a lista suspensa para ver os resultados do histórico de consultas de cada consulta no script.

Programar um script

É possível programar um script para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para scripts SQL.

É possível compartilhar um script com outras pessoas na organização usando permissões do IAM:

Na visualização Explore, clique no script do Spark SQL que você quer compartilhar.
No menu Mais, clique em Compartilhar.
Revise as permissões. Adicione ou remova permissões de leitor, editor e administrador do script compartilhado.

Depois que você compartilhar um script, os usuários com permissões de visualização ou edição no nível do lake poderão navegar até o lake e trabalhar no script compartilhado.

analisar os dados do BigQuery e do Cloud Storage usando o Spark SQL

Para qualquer conjunto de dados do BigQuery adicionado como um recurso a uma zona, o Dataplex ativa o acesso direto do Spark SQL a todas as tabelas nesse conjunto de dados. Consulte dados no Dataplex usando scripts ou notebooks do Spark SQL. Exemplo:

 select * from ZONE_ID.TABLE_ID

Se os recursos forem mapeados para buckets do Cloud Storage na mesma zona, o Dataplex fornecerá uma lista unificada de tabelas que podem ser consultadas usando o Spark.

Analisar dados usando notebooks

Esta seção descreve como criar, programar, compartilhar, importar e exportar notebooks.

Criar e salvar um notebook

No console do Google Cloud, acesse a página Explorar do Dataplex.
Em Explorar, selecione um lake.
Expanda o lake e clique na pasta Notebooks.
Clique em Novo notebook.
No campo Caminho do notebook, insira o nome dele.
Opcional: no campo Descrição, forneça uma descrição para o novo notebook.
Opcional: adicione rótulos.
Clique em Criar notebook. Um notebook foi criado.
Para abrir o notebook criado, clique em Abrir notebook.
Selecione um ambiente em que você quer que o Dataplex crie uma sessão de usuário ao criar ou abrir o notebook. Certifique-se de selecionar um ambiente com pacotes em que você confia.

Se você não selecionar um ambiente, o Dataplex usará o ambiente padrão. Se você não tiver um ambiente, crie um. Para mais informações, consulte Criar um ambiente.

Agora é possível explorar seus dados escrevendo código Python e salvando o notebook após a exploração. Mais tarde, é possível visualizar o notebook criado e examinar a saída dele sem criar uma sessão e executar o código.

Programar um notebook

É possível programar um notebook para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para notebooks.

É possível compartilhar um notebook com outras pessoas na organização usando permissões do IAM:

Na visualização Explore, clique na pasta Notebooks.
Selecione o notebook Jupyter que você quer compartilhar.
Clique em Compartilhar.
Revise as permissões. Adicione ou remova permissões de leitor, editor e administrador nesse notebook.

Depois que você compartilhar um notebook, os usuários com permissões de visualização ou edição no nível do lake poderão navegar até o lake e trabalhar no notebook compartilhado.

Importar um notebook

Importe um notebook de um bucket do Cloud Storage:

Na visualização Explore, clique na pasta Notebooks.
Clique em Importar.
Navegue até o bucket do Cloud Storage que contém o notebook que você quer importar.
Selecione o notebook, forneça um nome e clique em Import.

O notebook importado é criado na pasta Notebooks. É possível abrir, editar, compartilhar e programar o notebook importado.

Exportar um notebook

É possível exportar um notebook para um bucket do Cloud Storage que possa ser usado por outras pessoas na organização com permissões de IAM.

Na visualização Explore, clique na pasta Notebooks.
Marque o notebook que você quer exportar.
Clique no menu e em Exportar.
Insira o caminho do Cloud Storage para onde você quer exportar o notebook.
Clique em Exportar notebook.