Use o workbench de exploração de dados

O workbench de exploração de dados no Dataplex (Explore) permite consulte dados totalmente controlados com acesso de um clique ao Spark SQL scripts e notebooks do Jupyter. Com o recurso "Explorar", você pode colaborar com outras equipes usando recursos integrados de publicação, compartilhamento e pesquisa de recursos de programação.

Confira como provisionar, dimensionar e gerenciar a infraestrutura sem servidor necessária para executar scripts e notebooks do Spark SQL usando credenciais de usuário. Você pode operacionalizar seu trabalho com a programação sem servidor no workbench.

Este documento descreve como usar os recursos de análise no Dataplex.

Custos

O Dataplex oferece o Explore no nível de processamento premium.

Terminologia

Neste documento, usamos os seguintes termos:

Ambiente

Um ambiente fornece recursos de computação sem servidor para o Spark SQL consultas e notebooks para execução em um lake. Um administrador do Dataplex cria e gerencia ambientes.

Os administradores podem autorizar um ou mais usuários a executar consultas e notebooks no ambiente configurado concedendo a eles a função de desenvolvedor ou as permissões do IAM associadas.

Sessão

Quando um usuário autorizado escolhe um ambiente para executar consultas e notebooks, o Dataplex usa a configuração de ambiente especificada para criar uma sessão ativa específica do usuário. Dependendo da configuração do ambiente, se uma sessão não estiver em uso, ela será encerrada automaticamente.

O início de uma nova sessão por usuário leva alguns minutos. Uma vez que uma sessão é iniciado, ele executa consultas e notebooks subsequentes para o mesmo usuário. Uma sessão é ativos por no máximo 10 horas.

Para um ambiente, o Dataplex cria apenas uma sessão por usuário, que é compartilhado por scripts SQL do Spark e notebooks do Jupyter.

O Dataplex usa credenciais do usuário em uma sessão para executar operações, como a consulta de dados do Cloud Storage e no BigQuery.

Um nó especifica a capacidade de computação em uma configuração de ambiente. Um nó é mapeada para quatro unidades de computação de dados (DCU), que são comparáveis a quatro vCPUs 16 GB de RAM.

Ambiente padrão

É possível criar um ambiente padrão por lake com o ID default. Um ambiente padrão precisa usar uma configuração padrão. Uma configuração padrão consiste no seguinte:

  • Capacidade de computação de um nó
  • Tamanho do disco principal de 100 GB
  • O desligamento automático da sessão (tempo de desligamento automático) está definido como 10 minutos de inatividade
  • O parâmetro sessionSpec.enableFastStartup, que é definido por padrão como true. Quando esse parâmetro é definido como true, o Dataplex pré-provisiona as sessões desse ambiente para que elas sejam prontamente disponível, o que reduz o tempo de inicialização da sessão inicial.
  • Uma sessão de inicialização rápida é uma sessão de nó único, que o Dataplex cobranças na SKU de processamento Premium preços semelhantes aos de uma sessão normal. Uma sessão sempre ativa está disponível para inicialização rápida, o que gera custos mesmo quando não está em uso. O Dataplex mantém essa sessão pré-criada por 10 horas, desativa e cria uma nova sessão.

Se você não selecionar um ambiente explicitamente e tiver configurado um ambiente ambiente de execução, o Dataplex usa o ambiente padrão para criar sessões.

Script do SQL

Um script SQL é um script Spark SQL salvo como conteúdo em um do Dataplex. É possível salvar o script em um lake e compartilhar com outros diretores. Além disso, é possível programá-lo para ser executado como um job Spark em lote sem servidor no Dataplex. O Dataplex permite o acesso pronto do Spark SQL a tabelas que mapeiam dados no Cloud Storage e no BigQuery.

Notebook

Um notebook Python 3 é um notebook do Jupyter que você salva como conteúdo em um lago do Dataplex. É possível salvar um notebook como conteúdo em um data lake e compartilhar com outros diretores programá-lo para ser executado como um Job em lote do Spark sem servidor para Dataproc no Dataplex.

Para dados no BigQuery, você pode acessar o BigQuery tabelas diretamente pelo Spark sem usar o comando mágico %%bigquery.

Antes de começar

Antes de começar, vincule seu lake ao Metastore do Dataproc e conceda as funções necessárias.

Vincular seu lake ao metastore do Dataproc (DPMS)

Para usar o recurso Explorar, faça o seguinte:

Saiba como configurar o Dataproc Metastore com o Dataplex para acessar metadados no Spark.

Funções exigidas

Dependendo das ações que você planeja executar, são necessários todos os requisitos do IAM a seguir papéis de segurança na nuvem. Todos os ambientes em um lake herdam as permissões concedidas no nível do lake.

Papéis do IAM do Dataplex:

  • Leitor do Dataplex
  • Desenvolvedor do Dataplex
  • Leitor de metadados do Dataplex
  • Leitor de dados do Dataplex

Outros papéis:

Geração de registros

Para entender o uso do recurso Explorar, consulte os documentos a seguir:

Limitações conhecidas

Esta seção descreve as limitações conhecidas do recurso "Explorar".

  • O recurso "Explorar" está disponível para lagos nas seguintes regiões:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • É possível usar até 10 ambientes por região em um projeto. Para informações sobre como aumentar o limite da cota, veja Como trabalhar com cotas.

  • É possível criar ambientes com no máximo 150 nós. A duração da sessão para sessões de usuários individuais é restrita a 10 horas.

  • Os scripts do Spark SQL só podem consultar dados em um determinado data lake. Se você quiser consultar dados em outro lake, precisa alternar para esse lake e selecionar no ambiente do data lake.

  • Depois de cancelar a exclusão de um projeto, o Dataplex não restaura recursos de conteúdo, como scripts SQL ou notebooks. Tenha cuidado ao excluir um projeto com recursos de conteúdo do Google Analytics.

  • Ao programar um notebook, se o ambiente tiver pacotes personalizados, só poderá programar o notebook usando a CLI gcloud. Para mais informações, consulte Programar blocos de notas com pacotes personalizados.

  • Se você excluir um ambiente antes de excluir os scripts e os notebooks, não pode acessar a página Explorar. Portanto, não se esqueça de excluir scripts e notebooks antes de excluir um ambiente em Explore.

  • As sessões de análise não oferecem suporte a sistemas de arquivos distribuídos do Hadoop (HDFS). Não armazene dados do usuário em uma sessão de Explorar, porque eles são excluídos quando a sessão termina.

  • O limite de tamanho máximo para notebooks ou scripts SQL é de 1 MB.

Criar um ambiente

  1. No console do Google Cloud, acesse a página Gerenciar lagos do Dataplex.

    Acesse o Dataplex.

  2. Selecione um lake do Dataplex para o qual você quer criar um ambiente.

  3. Clique na guia Environments.

  4. Clique em Criar ambiente.

  5. No campo Nome de exibição, digite um nome para o ambiente.

  6. Em ID do ambiente, digite um ID exclusivo.

  7. Opcional: insira uma descrição para o novo ambiente.

  8. No painel Configurar computação, especifique o seguinte:

    1. Número de nós: o número de nós a serem provisionados para sessões de usuário criadas para este ambiente.
    2. Número máximo de nós: o número máximo de nós que o Dataplex pode escalonar automaticamente nas sessões de usuário associadas a esse ambiente.
    3. Tamanho do disco principal: a quantidade do tamanho do disco associado a cada nó provisionado.
    4. Tempo de desligamento automático: o tempo de inatividade após o qual o Dataplex encerrará automaticamente as sessões de usuário associadas a esse ambiente. Você pode definir um mínimo de 10 minutos e um máximo de 60 minutos.
  9. No painel Pacotes de software (opcional), é possível especificar outros pacotes Python, arquivos JAR e propriedades do Spark para instalar nas sessões de usuário provisionadas para esse ambiente.

    Ao criar um ambiente e informar o caminho do Cloud Storage para JARs Java ou pacotes Python, para o Dataplex instalar os JARs ou pacotes, verifique se o SDK do Cloud Dataplex O agente de serviço tem as permissões necessárias para acessar o Cloud Storage .

  10. Clique em Criar.

Observações

  • Um nó é mapeado para quatro unidades de computação de dados (DCUs), que são comparáveis a quatro vCPUs e 16 GB de RAM.

  • É possível criar um ambiente com um nó ou com três ou mais nós.

  • Os administradores de lake podem configurar ambientes com antecedência, permitindo que os usuários executem as cargas de trabalho usando as configurações pré-especificadas.

  • Embora os ambientes possam ser compartilhados com vários usuários, o Dataplex cria uma sessão separada por usuário usando o ambiente configuração do Terraform.

Criar um ambiente padrão

Veja os requisitos de configuração para um ambiente padrão.

Console

  1. Abrir o Dataplex no console do Google Cloud.

    Acesse o Dataplex.

  2. Navegue até a visualização Gerenciar.

  3. Selecione um lake do Dataplex.

  4. Clique na guia Environments.

  5. Clique em Criar ambiente padrão.

gcloud

Para criar um ambiente padrão com a inicialização rápida ativada, execute este comando: comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Analisar dados usando o Spark SQL Workbench

Para analisar dados do BigQuery e do Cloud Storage, use scripts do Spark SQL.

Criar e salvar um script

  1. No console do Google Cloud, acesse Explorar do Dataplex página.

  2. Na visualização Explorar, selecione o lago que contém os recursos de dados que você quer analisar.

  3. No navegador de recursos, expanda o lake. Isso mostra as seguintes pastas:

    • Dados: contém todos os bancos de dados e tabelas na instância do DPMS conectada ao lake, incluindo as tabelas Hudi, Iceberg e Delta Lake.
    • Notebooks: contém todos os notebooks criados no lago selecionado.
    • Scripts do Spark SQL: contém todos os scripts do Spark SQL criados no lago selecionado.
  4. Expanda Dados e selecione o banco de dados e a tabela necessários.

  5. Para usar uma consulta de exemplo, clique em CONSULTA. O workbench do Spark SQL preenche automaticamente uma nova guia com uma consulta de exemplo.

  6. Para criar um novo script, no Spark SQL Editor, clique em New script e insira suas consultas.

  7. Para salvar o script, selecione Salvar > Salvar script.

Executar um script

  1. No Editor SQL do Spark, clique na guia com a consulta que você quer executar.

  2. Clique em Selecionar ambiente. Selecione o ambiente em que você quer para executar a consulta. Se você não selecionar um ambiente, o Dataplex usa o ambiente padrão para criar uma sessão por usuário.

    É possível executar várias consultas Spark SQL no mesmo script, separando o consultas com ponto e vírgula.

  3. Clique em Executar.

  4. Confira os resultados do Histórico de consultas para cada uma das consultas no script usando a lista suspensa.

Programar um script

É possível programar um script para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para scripts SQL.

Compartilhar um script

É possível compartilhar um script com outras pessoas na organização usando as permissões do IAM:

  1. Na visualização Explore, clique no script do Spark SQL que você quer compartilhar.

  2. No menu Mais, clique em Compartilhar.

  3. Revise as permissões. Adicionar ou remover leitor, editor e administrador do script compartilhado.

Depois que você compartilha um script, os usuários com permissões de visualização ou edição no nível do lago podem navegar até ele e trabalhar no script compartilhado.

Analisar dados do BigQuery e do Cloud Storage usando o Spark SQL

Para qualquer conjunto de dados do BigQuery adicionado como um recurso a uma zona, O Dataplex permite acesso direto do Spark SQL a todas as tabelas nessa no conjunto de dados. É possível consultar dados no Dataplex usando scripts ou notebooks do Spark SQL. Exemplo:

 select * from ZONE_ID.TABLE_ID

Se os recursos forem mapeados para buckets do Cloud Storage na mesma zona, O Dataplex fornece uma lista unificada de tabelas que podem usando o Spark.

Explorar dados usando notebooks

Esta seção descreve como criar, programar, compartilhar, importar e exportar notebooks de segurança.

Criar e salvar um notebook

  1. No console do Google Cloud, acesse Explorar do Dataplex página.

  2. Na visualização Explorar, selecione um lago.

  3. Expanda o lake e clique na pasta Notebooks.

  4. Clique em Novo notebook.

  5. No campo Caminho do notebook, insira o nome do notebook.

  6. Opcional: no campo Descrição, forneça uma descrição para o novo notebook.

  7. Opcional: adicione rótulos.

  8. Clique em Criar notebook. Um notebook foi criado.

  9. Para abrir o notebook criado, clique em Abrir notebook.

  10. Selecione um ambiente em que você quer que o Dataplex crie um sessão de usuário ao criar ou abrir seu notebook. Selecione um ambiente com pacotes confiáveis.

    Se você não selecionar um ambiente, o Dataplex vai usar o ambiente padrão. Se você não tiver um ambiente, crie um. Para mais informações, consulte Criar um ambiente.

    Agora é possível explorar seus dados escrevendo código Python e salvando o notebook pós-análise. Depois, você pode conferir uma prévia do notebook criado e examinar a saída dele sem criar uma sessão e executar o código.

Programar um notebook

É possível programar um notebook para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para notebooks.

Compartilhar um notebook

É possível compartilhar um notebook com outras pessoas na organização usando as permissões do IAM:

  1. Na visualização Explorar, clique na pasta Notebooks.

  2. Selecione o notebook do Jupyter que você quer compartilhar.

  3. Clique em Compartilhar.

  4. Revise as permissões. Adicionar ou remover leitor, editor e administrador permissões para este notebook.

    Depois que você compartilhar um notebook, os usuários com permissões de leitura ou edição no lake podem navegar até o lake e trabalhar no notebook compartilhado.

Importar um notebook

É possível importar um notebook de um bucket do Cloud Storage:

  1. Na visualização Explorar, clique na pasta Notebooks.

  2. Clique em Importar.

  3. Acesse o bucket do Cloud Storage que contém o notebook que você quer importar.

  4. Selecione o notebook, insira um nome e clique em Import.

    O notebook importado é criado na pasta Notebooks. Você pode abrir, editar, compartilhar e programar o notebook importado.

Exportar um notebook

É possível exportar um notebook para um bucket do Cloud Storage usadas por outras pessoas na organização com permissões do IAM.

  1. Na visualização Explorar, clique na pasta Notebooks.

  2. Marque o notebook que você quer exportar.

  3. Clique no menu e clique em Exportar.

  4. Insira o caminho do Cloud Storage para exportar o notebook.

  5. Clique em Exportar notebook.

A seguir