O workbench de exploração de dados no Dataplex (Explore) permite consulte dados totalmente controlados com acesso de um clique ao Spark SQL scripts e notebooks do Jupyter. Com o recurso "Explorar", você pode colaborar com outras equipes usando recursos integrados de publicação, compartilhamento e pesquisa de recursos de programação.
Confira como provisionar, dimensionar e gerenciar a infraestrutura sem servidor necessária para executar scripts e notebooks do Spark SQL usando credenciais de usuário. Você pode operacionalizar seu trabalho com a programação sem servidor no workbench.
Este documento descreve como usar os recursos de análise no Dataplex.
Custos
O Dataplex oferece o Explore no nível de processamento premium.
Terminologia
Neste documento, usamos os seguintes termos:
Ambiente
Um ambiente fornece recursos de computação sem servidor para o Spark SQL consultas e notebooks para execução em um lake. Um administrador do Dataplex cria e gerencia ambientes.
Os administradores podem autorizar um ou mais usuários a executar consultas e notebooks no ambiente configurado concedendo a eles a função de desenvolvedor ou as permissões do IAM associadas.
Sessão
Quando um usuário autorizado escolhe um ambiente para executar consultas e notebooks, o Dataplex usa a configuração de ambiente especificada para criar uma sessão ativa específica do usuário. Dependendo da configuração do ambiente, se uma sessão não estiver em uso, ela será encerrada automaticamente.
O início de uma nova sessão por usuário leva alguns minutos. Uma vez que uma sessão é iniciado, ele executa consultas e notebooks subsequentes para o mesmo usuário. Uma sessão é ativos por no máximo 10 horas.
Para um ambiente, o Dataplex cria apenas uma sessão por usuário, que é compartilhado por scripts SQL do Spark e notebooks do Jupyter.
O Dataplex usa credenciais do usuário em uma sessão para executar operações, como a consulta de dados do Cloud Storage e no BigQuery.
Nó
Um nó especifica a capacidade de computação em uma configuração de ambiente. Um nó é mapeada para quatro unidades de computação de dados (DCU), que são comparáveis a quatro vCPUs 16 GB de RAM.
Ambiente padrão
É possível criar um ambiente padrão por lake com o ID default
.
Um ambiente padrão precisa usar uma configuração padrão. Uma configuração padrão
consiste no seguinte:
- Capacidade de computação de um nó
- Tamanho do disco principal de 100 GB
- O desligamento automático da sessão (tempo de desligamento automático) está definido como 10 minutos de inatividade
- O parâmetro
sessionSpec.enableFastStartup
, que é definido por padrão comotrue
. Quando esse parâmetro é definido comotrue
, o Dataplex pré-provisiona as sessões desse ambiente para que elas sejam prontamente disponível, o que reduz o tempo de inicialização da sessão inicial. - Uma sessão de inicialização rápida é uma sessão de nó único, que o Dataplex cobranças na SKU de processamento Premium preços semelhantes aos de uma sessão normal. Uma sessão sempre ativa está disponível para inicialização rápida, o que gera custos mesmo quando não está em uso. O Dataplex mantém essa sessão pré-criada por 10 horas, desativa e cria uma nova sessão.
Se você não selecionar um ambiente explicitamente e tiver configurado um ambiente ambiente de execução, o Dataplex usa o ambiente padrão para criar sessões.
Script do SQL
Um script SQL é um script Spark SQL salvo como conteúdo em um do Dataplex. É possível salvar o script em um lake e compartilhar com outros diretores. Além disso, é possível programá-lo para ser executado como um job Spark em lote sem servidor no Dataplex. O Dataplex permite o acesso pronto do Spark SQL a tabelas que mapeiam dados no Cloud Storage e no BigQuery.
Notebook
Um notebook Python 3 é um notebook do Jupyter que você salva como conteúdo em um lago do Dataplex. É possível salvar um notebook como conteúdo em um data lake e compartilhar com outros diretores programá-lo para ser executado como um Job em lote do Spark sem servidor para Dataproc no Dataplex.
Para dados no BigQuery, você pode acessar o BigQuery
tabelas diretamente pelo Spark sem usar o comando mágico %%bigquery
.
Antes de começar
Antes de começar, vincule seu lake ao Metastore do Dataproc e conceda as funções necessárias.
Vincular seu lake ao metastore do Dataproc (DPMS)
Para usar o recurso Explorar, faça o seguinte:
- Associe uma instância do metastore do Dataproc (DPMS) ativada pelo gRPC na versão 3.1.2 ou mais recente com o lake do Dataplex.
- Verifique se você tem um Metastore do Dataproc e um ambiente mapeado para o lake.
Saiba como configurar o Dataproc Metastore com o Dataplex para acessar metadados no Spark.
Funções exigidas
Dependendo das ações que você planeja executar, são necessários todos os requisitos do IAM a seguir papéis de segurança na nuvem. Todos os ambientes em um lake herdam as permissões concedidas no nível do lake.
- Leitor do Dataplex
- Desenvolvedor do Dataplex
- Leitor de metadados do Dataplex
- Leitor de dados do Dataplex
Outros papéis:
Geração de registros
Para entender o uso do recurso Explorar, consulte os documentos a seguir:
Limitações conhecidas
Esta seção descreve as limitações conhecidas do recurso "Explorar".
O recurso "Explorar" está disponível para lagos nas seguintes regiões:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
É possível usar até 10 ambientes por região em um projeto. Para informações sobre como aumentar o limite da cota, veja Como trabalhar com cotas.
É possível criar ambientes com no máximo 150 nós. A duração da sessão para sessões de usuários individuais é restrita a 10 horas.
Os scripts do Spark SQL só podem consultar dados em um determinado data lake. Se você quiser consultar dados em outro lake, precisa alternar para esse lake e selecionar no ambiente do data lake.
Depois de cancelar a exclusão de um projeto, o Dataplex não restaura recursos de conteúdo, como scripts SQL ou notebooks. Tenha cuidado ao excluir um projeto com recursos de conteúdo do Google Analytics.
Ao programar um notebook, se o ambiente tiver pacotes personalizados, só poderá programar o notebook usando a CLI gcloud. Para mais informações, consulte Programar blocos de notas com pacotes personalizados.
Se você excluir um ambiente antes de excluir os scripts e os notebooks, não pode acessar a página Explorar. Portanto, não se esqueça de excluir scripts e notebooks antes de excluir um ambiente em Explore.
As sessões de análise não oferecem suporte a sistemas de arquivos distribuídos do Hadoop (HDFS). Não armazene dados do usuário em uma sessão de Explorar, porque eles são excluídos quando a sessão termina.
O limite de tamanho máximo para notebooks ou scripts SQL é de 1 MB.
Criar um ambiente
No console do Google Cloud, acesse a página Gerenciar lagos do Dataplex.
Selecione um lake do Dataplex para o qual você quer criar um ambiente.
Clique na guia Environments.
Clique em Criar ambiente.
No campo Nome de exibição, digite um nome para o ambiente.
Em ID do ambiente, digite um ID exclusivo.
Opcional: insira uma descrição para o novo ambiente.
No painel Configurar computação, especifique o seguinte:
- Número de nós: o número de nós a serem provisionados para sessões de usuário criadas para este ambiente.
- Número máximo de nós: o número máximo de nós que o Dataplex pode escalonar automaticamente nas sessões de usuário associadas a esse ambiente.
- Tamanho do disco principal: a quantidade do tamanho do disco associado a cada nó provisionado.
- Tempo de desligamento automático: o tempo de inatividade após o qual o Dataplex encerrará automaticamente as sessões de usuário associadas a esse ambiente. Você pode definir um mínimo de 10 minutos e um máximo de 60 minutos.
No painel Pacotes de software (opcional), é possível especificar outros pacotes Python, arquivos JAR e propriedades do Spark para instalar nas sessões de usuário provisionadas para esse ambiente.
Ao criar um ambiente e informar o caminho do Cloud Storage para JARs Java ou pacotes Python, para o Dataplex instalar os JARs ou pacotes, verifique se o SDK do Cloud Dataplex O agente de serviço tem as permissões necessárias para acessar o Cloud Storage .
Clique em Criar.
Observações
Um nó é mapeado para quatro unidades de computação de dados (DCUs), que são comparáveis a quatro vCPUs e 16 GB de RAM.
É possível criar um ambiente com um nó ou com três ou mais nós.
Os administradores de lake podem configurar ambientes com antecedência, permitindo que os usuários executem as cargas de trabalho usando as configurações pré-especificadas.
Embora os ambientes possam ser compartilhados com vários usuários, o Dataplex cria uma sessão separada por usuário usando o ambiente configuração do Terraform.
Criar um ambiente padrão
Veja os requisitos de configuração para um ambiente padrão.
Console
Abrir o Dataplex no console do Google Cloud.
Navegue até a visualização Gerenciar.
Selecione um lake do Dataplex.
Clique na guia Environments.
Clique em Criar ambiente padrão.
gcloud
Para criar um ambiente padrão com a inicialização rápida ativada, execute este comando: comando:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Analisar dados usando o Spark SQL Workbench
Para analisar dados do BigQuery e do Cloud Storage, use scripts do Spark SQL.
Criar e salvar um script
No console do Google Cloud, acesse Explorar do Dataplex página.
Na visualização Explorar, selecione o lago que contém os recursos de dados que você quer analisar.
No navegador de recursos, expanda o lake. Isso mostra as seguintes pastas:
- Dados: contém todos os bancos de dados e tabelas na instância do DPMS conectada ao lake, incluindo as tabelas Hudi, Iceberg e Delta Lake.
- Notebooks: contém todos os notebooks criados no lago selecionado.
- Scripts do Spark SQL: contém todos os scripts do Spark SQL criados no lago selecionado.
Expanda Dados e selecione o banco de dados e a tabela necessários.
Para usar uma consulta de exemplo, clique em CONSULTA. O workbench do Spark SQL preenche automaticamente uma nova guia com uma consulta de exemplo.
Para criar um novo script, no Spark SQL Editor, clique em New script e insira suas consultas.
Para salvar o script, selecione Salvar > Salvar script.
Executar um script
No Editor SQL do Spark, clique na guia com a consulta que você quer executar.
Clique em Selecionar ambiente. Selecione o ambiente em que você quer para executar a consulta. Se você não selecionar um ambiente, o Dataplex usa o ambiente padrão para criar uma sessão por usuário.
É possível executar várias consultas Spark SQL no mesmo script, separando o consultas com ponto e vírgula.
Clique em Executar.
Confira os resultados do Histórico de consultas para cada uma das consultas no script usando a lista suspensa.
Programar um script
É possível programar um script para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para scripts SQL.
Compartilhar um script
É possível compartilhar um script com outras pessoas na organização usando as permissões do IAM:
Na visualização Explore, clique no script do Spark SQL que você quer compartilhar.
No menu Mais, clique em Compartilhar.
Revise as permissões. Adicionar ou remover leitor, editor e administrador do script compartilhado.
Depois que você compartilha um script, os usuários com permissões de visualização ou edição no nível do lago podem navegar até ele e trabalhar no script compartilhado.
Analisar dados do BigQuery e do Cloud Storage usando o Spark SQL
Para qualquer conjunto de dados do BigQuery adicionado como um recurso a uma zona, O Dataplex permite acesso direto do Spark SQL a todas as tabelas nessa no conjunto de dados. É possível consultar dados no Dataplex usando scripts ou notebooks do Spark SQL. Exemplo:
select * from ZONE_ID.TABLE_ID
Se os recursos forem mapeados para buckets do Cloud Storage na mesma zona, O Dataplex fornece uma lista unificada de tabelas que podem usando o Spark.
Explorar dados usando notebooks
Esta seção descreve como criar, programar, compartilhar, importar e exportar notebooks de segurança.
Criar e salvar um notebook
No console do Google Cloud, acesse Explorar do Dataplex página.
Na visualização Explorar, selecione um lago.
Expanda o lake e clique na pasta Notebooks.
Clique em Novo notebook.
No campo Caminho do notebook, insira o nome do notebook.
Opcional: no campo Descrição, forneça uma descrição para o novo notebook.
Opcional: adicione rótulos.
Clique em Criar notebook. Um notebook foi criado.
Para abrir o notebook criado, clique em Abrir notebook.
Selecione um ambiente em que você quer que o Dataplex crie um sessão de usuário ao criar ou abrir seu notebook. Selecione um ambiente com pacotes confiáveis.
Se você não selecionar um ambiente, o Dataplex vai usar o ambiente padrão. Se você não tiver um ambiente, crie um. Para mais informações, consulte Criar um ambiente.
Agora é possível explorar seus dados escrevendo código Python e salvando o notebook pós-análise. Depois, você pode conferir uma prévia do notebook criado e examinar a saída dele sem criar uma sessão e executar o código.
Programar um notebook
É possível programar um notebook para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para notebooks.
Compartilhar um notebook
É possível compartilhar um notebook com outras pessoas na organização usando as permissões do IAM:
Na visualização Explorar, clique na pasta Notebooks.
Selecione o notebook do Jupyter que você quer compartilhar.
Clique em Compartilhar.
Revise as permissões. Adicionar ou remover leitor, editor e administrador permissões para este notebook.
Depois que você compartilhar um notebook, os usuários com permissões de leitura ou edição no lake podem navegar até o lake e trabalhar no notebook compartilhado.
Importar um notebook
É possível importar um notebook de um bucket do Cloud Storage:
Na visualização Explorar, clique na pasta Notebooks.
Clique em Importar.
Acesse o bucket do Cloud Storage que contém o notebook que você quer importar.
Selecione o notebook, insira um nome e clique em Import.
O notebook importado é criado na pasta Notebooks. Você pode abrir, editar, compartilhar e programar o notebook importado.
Exportar um notebook
É possível exportar um notebook para um bucket do Cloud Storage usadas por outras pessoas na organização com permissões do IAM.
Na visualização Explorar, clique na pasta Notebooks.
Marque o notebook que você quer exportar.
Clique no menu
e clique em Exportar.Insira o caminho do Cloud Storage para exportar o notebook.
Clique em Exportar notebook.
A seguir
- Consulte a referência da API para o recurso de tarefa.
- Gerenciar seus ambientes.
- Descobrir dados.
- Programar scripts e notebooks SQL.
- Gerenciar metadados.