O workbench de exploração de dados no Dataplex (Explore) permite consultar interativamente dados totalmente controlados com acesso com um clique a scripts SQL do Spark e notebooks do Jupyter. O recurso Analisar permite colaborar entre equipes com publicação, compartilhamento e pesquisa integrados de recursos de programação.
Conheça as disposições, o escalonamento e o gerenciamento da infraestrutura sem servidor necessária para executar scripts e notebooks Spark SQL usando credenciais de usuário. Você pode operacionalizar seu trabalho com programação sem servidor no Workbench.
Este documento descreve como usar os recursos do Explore no Dataplex.
Custos
O Dataplex oferece o recurso Explore no nível de processamento premium.
Terminologia
Neste documento, usamos os seguintes termos:
Ambiente
Um ambiente fornece recursos de computação sem servidor para consultas e notebooks do Spark SQL serem executados em um lake. Um administrador do Dataplex cria e gerencia ambientes.
Os administradores podem autorizar um ou mais usuários a executar consultas e notebooks no ambiente configurado concedendo a eles o papel de desenvolvedor ou as permissões do IAM associadas.
Sessão
Quando um usuário autorizado escolhe um ambiente para executar consultas e notebooks, o Dataplex usa a configuração do ambiente especificada para criar uma sessão ativa específica do usuário. Dependendo da configuração do ambiente, se uma sessão não estiver em uso, ela será encerrada automaticamente.
O início de uma nova sessão por usuário leva alguns minutos. Depois que uma sessão é iniciada, ela executa consultas e notebooks subsequentes para o mesmo usuário. Uma sessão fica ativa por no máximo 10 horas.
Para um ambiente, o Dataplex cria apenas uma sessão por usuário, que é compartilhada por scripts SQL do Spark e notebooks do Jupyter.
O Dataplex usa as credenciais do usuário em uma sessão para executar operações, como consultar os dados do Cloud Storage e do BigQuery.
Nó
Um nó especifica a capacidade de computação em uma configuração de ambiente. Um nó é mapeado para quatro unidades de computação de dados (DCU, na sigla em inglês), o que é comparável a 4 vCPUs e 16 GB de RAM.
Ambiente padrão
É possível criar um ambiente padrão por lake com o ID default
.
Um ambiente padrão precisa usar uma configuração padrão. Uma configuração padrão
consiste no seguinte:
- Capacidade de computação de um nó
- Tamanho do disco principal de 100 GB
- Encerramento automático da sessão (tempo de encerramento automático) definido como 10 minutos de tempo de inatividade
- O parâmetro
sessionSpec.enableFastStartup
, que é definido por padrão comotrue
. Quando ele é definido comotrue
, o Dataplex provisiona as sessões desse ambiente para que estejam prontamente disponíveis, o que reduz o tempo de inicialização da sessão inicial. - Uma sessão de inicialização rápida consiste em uma sessão de nó único, que o Dataplex cobra com taxas da SKU de processamento premium de maneira semelhante a uma sessão normal. No máximo uma sessão sempre ativada está disponível para inicialização rápida, o que incorre em custos mesmo quando não está em uso. O Dataplex mantém essa sessão pré-criada ativa por 10 horas, a desliga e cria uma nova sessão.
Se você não selecionar um ambiente explicitamente e tiver configurado um ambiente padrão com antecedência, o Dataplex vai usá-lo para criar sessões.
Script do SQL
Um script SQL é um script Spark SQL que é salvo como conteúdo em um lake do Dataplex. É possível salvar o script em um lake e compartilhá-lo com outras principais. Além disso, é possível programá-lo para ser executado como um job do Spark sem servidor em lote no Dataplex. O Dataplex permite o acesso pronto para uso do Spark SQL a tabelas mapeadas para dados no Cloud Storage e no BigQuery.
Notebook
Um notebook do Python 3 é um notebook do Jupyter que você salva como conteúdo em um lake do Dataplex. Salve um notebook como conteúdo em um lake e compartilhe-o com outros principais ou programe-o para ser executado como um job em lote do Spark sem servidor do Dataproc no Dataplex.
Para dados no BigQuery, é possível acessar as tabelas do BigQuery diretamente pelo Spark, sem usar o comando mágico %%bigquery
.
Antes de começar
Antes de começar, vincule seu lake ao metastore do Dataproc e conceda os papéis necessários.
Vincular seu lake ao metastore do Dataproc (DPMS)
Para usar a ferramenta Analisar, faça o seguinte:
- Associe uma instância de Metastore do Dataproc (DPMS) ativado para gRPC na versão 3.1.2 ou posterior ao lake do Dataplex.
- Verifique se você tem um metastore do Dataproc e um ambiente mapeado para seu lake.
Saiba como configurar o metastore do Dataproc com o Dataplex para acessar metadados no Spark.
Funções exigidas
Dependendo das ações que você planeja executar, todos os papéis do IAM a seguir serão necessários. Todos os ambientes em um lake herdam as permissões concedidas no nível do lake.
- Leitor do Dataplex
- Desenvolvedor do Dataplex
- Leitor de metadados do Dataplex
- Leitor de dados do Dataplex
Papéis adicionais:
Geração de registros
Para entender o uso do recurso Explorar, consulte os seguintes documentos:
Limitações conhecidas
Nesta seção, descrevemos as limitações conhecidas do recurso Analisar.
A Análise está disponível para lakes nas seguintes regiões:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
É possível usar até 10 ambientes por região em um projeto. Para mais informações sobre como aumentar o limite de cota, consulte Como trabalhar com cotas.
É possível criar ambientes com, no máximo, 150 nós. A duração para sessões individuais de usuários é restrita a 10 horas.
Os scripts SQL do Spark só podem consultar dados em um determinado lake. Para consultar dados em um lake diferente, alterne para esse lake e selecione um ambiente dentro dele.
Depois que você cancela a exclusão de um projeto, o Dataplex não restaura recursos de conteúdo, como scripts ou notebooks SQL. Prossiga com cuidado ao excluir um projeto usando os recursos de conteúdo do Explore.
Ao programar um notebook, se o ambiente tiver pacotes personalizados, será possível programá-lo usando somente a CLI gcloud. Para mais informações, consulte Programar notebooks com pacotes personalizados.
Se você excluir um ambiente antes de excluir os scripts e notebooks, não será possível acessar a página "Explorar". Portanto, exclua os scripts e notebooks antes de excluir um ambiente em Explore.
As sessões "Explore" não são compatíveis com os sistemas de arquivos distribuídos do Hadoop (HDFS, na sigla em inglês). Não armazene dados do usuário em uma sessão do Explore, porque eles serão excluídos quando a sessão terminar.
O limite de tamanho máximo para um notebook ou script SQL é de 1 MB.
Criar um ambiente
No console do Google Cloud, acesse a página Gerenciar lakes do Dataplex.
Selecione um lake do Dataplex para o qual você quer criar um ambiente.
Clique na guia Environments.
Clique em Criar ambiente.
No campo Nome de exibição, digite um nome para o ambiente.
Em ID do ambiente, insira um ID exclusivo.
Opcional: insira uma descrição para o novo ambiente.
No painel Configurar computação, especifique o seguinte:
- Número de nós: o número de nós a serem provisionados para sessões de usuário criadas para esse ambiente.
- Número máximo de nós: o número máximo de nós que o Dataplex pode escalonar automaticamente nas sessões do usuário associadas a esse ambiente.
- Tamanho do disco principal: a quantidade de tamanho do disco associado a cada nó provisionado.
- Tempo de encerramento automático: o tempo de inatividade após o qual o Dataplex encerra automaticamente as sessões de usuário associadas a esse ambiente. É possível definir um mínimo de 10 minutos e um máximo de 60 minutos.
No painel Pacotes de software (opcional), especifique outros pacotes Python, arquivos JAR e propriedades do Spark para instalar em sessões de usuário provisionadas para esse ambiente.
Ao criar um ambiente e fornecer o caminho do Cloud Storage para pacotes Java JARs ou Python, para que o Dataplex instale os JARs ou pacotes, verifique se o agente de serviço do Cloud Dataplex tem as permissões necessárias para acessar os arquivos do Cloud Storage.
Clique em Criar.
Observações
Um nó é mapeado para quatro unidades de computação de dados (DCU, na sigla em inglês), o que é comparável a 4 vCPUs e 16 GB de RAM.
É possível criar um ambiente com um nó ou com três nós ou mais.
Se você for um administrador de lake, poderá configurar ambientes com antecedência, permitindo que os usuários executem cargas de trabalho usando as configurações pré-especificadas.
Embora os ambientes possam ser compartilhados com vários usuários, o Dataplex cria uma sessão separada por usuário utilizando a configuração do ambiente.
Criar um ambiente padrão
Veja os requisitos de configuração de um ambiente padrão.
Console
Abra o Dataplex no console do Google Cloud.
Navegue até a visualização Gerenciar.
Selecione um lake do Dataplex.
Clique na guia Environments.
Clique em Criar ambiente padrão.
gcloud
Para criar um ambiente padrão com a inicialização rápida ativada, execute o seguinte comando:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Analise dados usando o workbench do Spark SQL
Para explorar os dados do BigQuery e do Cloud Storage, use scripts do Spark SQL.
Criar e salvar um script
No console do Google Cloud, acesse a página Explorar do Dataplex.
Na visualização Explorar, selecione o lake que contém os recursos de dados que você quer explorar.
No navegador de recursos, expanda o lake. As seguintes pastas serão exibidas:
- Dados: contém todos os bancos de dados e tabelas na instância do DPMS conectada ao seu lake, incluindo as tabelas Hudi, Iceberg e Delta Lake.
- Notebooks: contém todos os notebooks criados no lake selecionado.
- Scripts do Spark SQL: contêm todos os scripts do Spark SQL criados no lake selecionado.
Expanda Dados e selecione o banco de dados e a tabela necessários.
Para usar um exemplo de consulta, clique em CONSULTA. O workbench do Spark SQL preenche automaticamente uma nova guia com um exemplo de consulta.
Para criar um novo script, no Editor de SQL do Spark, clique em Novo script e insira suas consultas.
Para salvar o script, selecione Salvar > Salvar script.
Executar um script
No Spark SQL Editor, clique na guia com a consulta que você quer executar.
Clique em Selecionar ambiente. Selecione o ambiente em que você quer executar a consulta. Se você não selecionar um ambiente, o Dataplex usará o ambiente padrão para criar uma sessão por usuário.
Separe as consultas por ponto e vírgula para executar várias consultas Spark SQL no mesmo script.
Clique em Executar.
Use a lista suspensa para ver os resultados do histórico de consultas de cada consulta no script.
Programar um script
É possível programar um script para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para scripts SQL.
Compartilhar um script
É possível compartilhar um script com outras pessoas na organização usando permissões do IAM:
Na visualização Explore, clique no script do Spark SQL que você quer compartilhar.
No menu Mais, clique em Compartilhar.
Revise as permissões. Adicione ou remova permissões de leitor, editor e administrador do script compartilhado.
Depois que você compartilhar um script, os usuários com permissões de visualização ou edição no nível do lake poderão navegar até o lake e trabalhar no script compartilhado.
analisar os dados do BigQuery e do Cloud Storage usando o Spark SQL
Para qualquer conjunto de dados do BigQuery adicionado como um recurso a uma zona, o Dataplex ativa o acesso direto do Spark SQL a todas as tabelas nesse conjunto de dados. Consulte dados no Dataplex usando scripts ou notebooks do Spark SQL. Exemplo:
select * from ZONE_ID.TABLE_ID
Se os recursos forem mapeados para buckets do Cloud Storage na mesma zona, o Dataplex fornecerá uma lista unificada de tabelas que podem ser consultadas usando o Spark.
Analisar dados usando notebooks
Esta seção descreve como criar, programar, compartilhar, importar e exportar notebooks.
Criar e salvar um notebook
No console do Google Cloud, acesse a página Explorar do Dataplex.
Em Explorar, selecione um lake.
Expanda o lake e clique na pasta Notebooks.
Clique em Novo notebook.
No campo Caminho do notebook, insira o nome dele.
Opcional: no campo Descrição, forneça uma descrição para o novo notebook.
Opcional: adicione rótulos.
Clique em Criar notebook. Um notebook foi criado.
Para abrir o notebook criado, clique em Abrir notebook.
Selecione um ambiente em que você quer que o Dataplex crie uma sessão de usuário ao criar ou abrir o notebook. Certifique-se de selecionar um ambiente com pacotes em que você confia.
Se você não selecionar um ambiente, o Dataplex usará o ambiente padrão. Se você não tiver um ambiente, crie um. Para mais informações, consulte Criar um ambiente.
Agora é possível explorar seus dados escrevendo código Python e salvando o notebook após a exploração. Mais tarde, é possível visualizar o notebook criado e examinar a saída dele sem criar uma sessão e executar o código.
Programar um notebook
É possível programar um notebook para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para notebooks.
Compartilhar um notebook
É possível compartilhar um notebook com outras pessoas na organização usando permissões do IAM:
Na visualização Explore, clique na pasta Notebooks.
Selecione o notebook Jupyter que você quer compartilhar.
Clique em Compartilhar.
Revise as permissões. Adicione ou remova permissões de leitor, editor e administrador nesse notebook.
Depois que você compartilhar um notebook, os usuários com permissões de visualização ou edição no nível do lake poderão navegar até o lake e trabalhar no notebook compartilhado.
Importar um notebook
Importe um notebook de um bucket do Cloud Storage:
Na visualização Explore, clique na pasta Notebooks.
Clique em Importar.
Navegue até o bucket do Cloud Storage que contém o notebook que você quer importar.
Selecione o notebook, forneça um nome e clique em Import.
O notebook importado é criado na pasta Notebooks. É possível abrir, editar, compartilhar e programar o notebook importado.
Exportar um notebook
É possível exportar um notebook para um bucket do Cloud Storage que possa ser usado por outras pessoas na organização com permissões de IAM.
Na visualização Explore, clique na pasta Notebooks.
Marque o notebook que você quer exportar.
Clique no menu
e em Exportar.Insira o caminho do Cloud Storage para onde você quer exportar o notebook.
Clique em Exportar notebook.
A seguir
- Consulte a referência da API para o recurso "Task".
- Gerencie seus ambientes.
- Descobrir dados.
- Programar scripts e notebooks SQL.
- Gerenciar metadados.