Use o workbench de exploração de dados

O workbench de exploração de dados no Dataplex (Explore) permite consulte dados totalmente controlados com acesso de um clique ao Spark SQL scripts e notebooks do Jupyter. A ferramenta Analisar permite colaborar entre equipes com publicação, compartilhamento e pesquisa integrados de recursos de codificação.

Analisar as provisões, o escalonamento e o gerenciamento da infraestrutura sem servidor necessárias para executar scripts e notebooks do Spark SQL usando credenciais de usuário. É possível operacionalizar seu trabalho com a programação sem servidor do workbench.

Este documento descreve como usar os recursos "Explorar" o Dataplex.

Custos

O Dataplex oferece o Explore na nível de processamento premium.

Terminologia

Neste documento, usamos os seguintes termos:

Ambiente

Um ambiente fornece recursos de computação sem servidor para o Spark SQL consultas e notebooks para execução em um lake. Um Dataplex administrador cria e gerencia ambientes.

Os administradores podem autorizar um ou mais usuários a executar consultas e notebooks no ambiente configurado concedendo a eles o Função do desenvolvedor ou as permissões do IAM associadas.

Sessão

Quando um usuário autorizado escolhe um ambiente para executar consultas e notebooks, o Dataplex usa a configuração de ambiente especificada para criar uma sessão ativa específica do usuário. Dependendo do ambiente do Terraform, se uma sessão não estiver em uso, ela será encerrada automaticamente.

O início de uma nova sessão por usuário leva alguns minutos. Uma vez que uma sessão é iniciado, ele executa consultas e notebooks subsequentes para o mesmo usuário. Uma sessão é ativos por no máximo 10 horas.

Em um ambiente, o Dataplex cria apenas uma sessão por usuário, que é compartilhado por scripts SQL do Spark e notebooks do Jupyter.

O Dataplex usa credenciais do usuário em uma sessão para executar operações, como a consulta de dados do Cloud Storage e no BigQuery.

Um nó especifica a capacidade de computação em uma configuração de ambiente. Um nó é mapeada para quatro unidades de computação de dados (DCU), que são comparáveis a quatro vCPUs e 16 GB de RAM.

Ambiente padrão

É possível criar um ambiente padrão por lake com o ID default. O ambiente padrão precisa usar uma configuração padrão. Uma configuração padrão consiste no seguinte:

  • Capacidade de computação de um nó
  • Tamanho do disco principal de 100 GB
  • Encerramento automático da sessão (tempo de encerramento automático) definido como 10 minutos de inatividade
  • O parâmetro sessionSpec.enableFastStartup, que é definido por padrão como true. Quando esse parâmetro é definido como true, o Dataplex pré-provisiona as sessões desse ambiente para que elas sejam prontamente disponível, o que reduz o tempo de inicialização da sessão inicial.
  • Uma sessão de inicialização rápida é uma sessão de nó único, que o Dataplex cobranças na SKU de processamento Premium preços semelhantes aos de uma sessão normal. No máximo uma sessão sempre ativada é está disponível para inicialização rápida, o que incorre em custos mesmo quando não está em uso. O Dataplex mantém essa sessão pré-criada ativa por 10 horas a desativa e cria uma nova sessão.

Se você não selecionar um ambiente explicitamente e tiver configurado um ambiente ambiente de execução, o Dataplex usa o ambiente padrão para criar sessões.

Script do SQL

Um script SQL é um script Spark SQL salvo como conteúdo em um do Dataplex. É possível salvar o script em um lake e compartilhar com outros diretores. Além disso, ele pode ser programado para execução em lote. job do Spark sem servidor no Dataplex. O Dataplex permite Acesso imediato do Spark SQL a tabelas que mapeiam dados no Cloud Storage e o BigQuery.

Notebook

Um notebook Python 3 é um notebook Jupyter que você salva como conteúdo em um do Dataplex. É possível salvar um notebook como conteúdo em em um lake e compartilhá-lo com outros diretores programá-lo para ser executado como um Job em lote do Spark sem servidor do Dataproc no Dataplex.

Para dados no BigQuery, você pode acessar o BigQuery tabelas diretamente pelo Spark sem usar o comando mágico %%bigquery.

Antes de começar

Antes de começar, vincule seu lake ao metastore do Dataproc e conceda a e os papéis necessários.

Vincular seu lake ao metastore do Dataproc (DPMS)

Para usar o recurso "Explorar", faça o seguinte:

Saiba como configurar o metastore do Dataproc com Dataplex para acessar metadados no Spark.

Funções exigidas

Dependendo das ações que você planeja executar, são necessários todos os requisitos do IAM a seguir papéis de segurança na nuvem. Todos os ambientes em um lake herdam as permissões concedidas no nível do lake.

Papéis do IAM do Dataplex:

  • Leitor do Dataplex
  • Desenvolvedor do Dataplex
  • Leitor de metadados do Dataplex
  • Leitor de dados do Dataplex

Papéis adicionais:

Geração de registros

Para entender o uso do recurso Explorar, consulte os documentos a seguir:

Limitações conhecidas

Esta seção descreve as limitações conhecidas da ferramenta Analisar.

  • O recurso "Explorar" está disponível para lagos nas seguintes regiões:

    • asia-northeast1
    • asia-southeast1
    • europe-west1
    • europe-west2
    • us-central1
    • us-east1
    • us-west1
  • É possível usar até 10 ambientes por região em um projeto. Para informações sobre como aumentar o limite da cota, veja Como trabalhar com cotas.

  • É possível criar ambientes com no máximo 150 nós. A duração da sessão para sessões de usuários individuais é restrito a 10 horas.

  • Os scripts SQL do Spark só podem consultar dados em um determinado lake. Se você quiser consultar dados em outro lake, precisa alternar para esse lake e selecionar uma no ambiente do data lake.

  • Depois de cancelar a exclusão de um projeto, o Dataplex não restaura o conteúdo recursos, como scripts SQL ou notebooks. Prossiga com cuidado quando excluir um projeto com os recursos de conteúdo do recurso Explorar.

  • Ao programar um notebook, se o ambiente tiver pacotes personalizados, só poderá programar o notebook usando a CLI gcloud. Para mais mais informações, consulte Programar notebooks com pacotes personalizados.

  • Se você excluir um ambiente antes de excluir os scripts e os notebooks, não pode acessar a página Explorar. Portanto, não se esqueça de excluir scripts e notebooks antes de excluir um ambiente em Explore.

  • As sessões de exploração não oferecem suporte a sistemas de arquivos distribuídos do Hadoop (HDFS, na sigla em inglês). Não armazene dados do usuário em uma sessão de Análise, porque eles são excluídos quando quando a sessão terminar.

  • O limite de tamanho máximo para notebooks ou scripts SQL é de 1 MB.

Criar um ambiente

  1. No console do Google Cloud, acesse o Dataplex Gerenciar lakes.

    Acesse o Dataplex.

  2. Selecione um lake do Dataplex em que você quer criar um de nuvem.

  3. Clique na guia Environments.

  4. Clique em Criar ambiente.

  5. No campo Nome de exibição, insira um nome para o ambiente.

  6. Em ID do ambiente, digite um ID exclusivo.

  7. Opcional: insira uma descrição para o novo ambiente.

  8. No painel Configurar computação, especifique o seguinte:

    1. Número de nós: o número de nós a serem provisionados para sessões de usuário criadas para esse ambiente.
    2. Número máximo de nós: o número máximo de nós que O Dataplex pode ser escalonado automaticamente nas sessões de usuário associadas com esse ambiente.
    3. Tamanho do disco principal: a quantidade do tamanho do disco associado a cada nó provisionado.
    4. Tempo de encerramento automático: o tempo de inatividade após o qual o Dataplex encerra automaticamente as sessões de usuário associadas a este de nuvem. Você pode definir um mínimo de 10 minutos e um máximo de 60 minutos.
  9. No painel Pacotes de software (opcional), é possível especificar Pacotes Python, arquivos JAR e propriedades Spark para instalar nas sessões do usuário provisionados para esse ambiente.

    Ao criar um ambiente e informar o caminho do Cloud Storage para JARs Java ou pacotes Python, para o Dataplex instalar os JARs ou pacotes, verifique se o SDK do Cloud Dataplex O agente de serviço tem as permissões necessárias para acessar o Cloud Storage .

  10. Clique em Criar.

Observações

  • Um nó é mapeado para quatro unidades de computação de dados (DCU), que é comparável a 4 vCPUs e 16 GB de RAM.

  • É possível criar um ambiente com um nó ou com três nós ou mais.

  • Os administradores de lake podem configurar ambientes com antecedência, permitindo que os usuários executem as cargas de trabalho usando as configurações pré-especificadas.

  • Embora os ambientes possam ser compartilhados com vários usuários, o Dataplex cria uma sessão separada por usuário usando o ambiente configuração do Terraform.

Criar um ambiente padrão

Veja os requisitos de configuração para um ambiente padrão.

Console

  1. Abrir o Dataplex no console do Google Cloud.

    Acesse o Dataplex.

  2. Navegue até a visualização Gerenciar.

  3. Selecione um lake do Dataplex.

  4. Clique na guia Environments.

  5. Clique em Criar ambiente padrão.

.

gcloud

Para criar um ambiente padrão com a inicialização rápida ativada, execute o seguinte: comando:

gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup

Analisar dados usando o Spark SQL Workbench

Para analisar os dados do BigQuery e do Cloud Storage, use o Spark SQL scripts.

Criar e salvar um script

  1. No console do Google Cloud, acesse Explorar do Dataplex página.

  2. Na visualização Análise, selecione o lake que contém os recursos de dados que você quer explorar.

  3. No navegador de recursos, expanda o lake. Isso mostra o seguinte: pastas:

    • Dados: contém todos os bancos de dados e tabelas na instância do DPMS. conectados ao seu lake, incluindo as tabelas de lake Hudi, Iceberg e Delta.
    • Notebooks: contém todos os notebooks criados no lake selecionado.
    • Scripts Spark SQL: contém todos os scripts SQL do Spark criados em o lake selecionado.
  4. Expanda Dados e selecione o banco de dados e a tabela necessários.

  5. Para usar um exemplo de consulta, clique em CONSULTA. O workbench do Spark SQL preenche automaticamente uma nova guia com um exemplo de consulta.

  6. Para criar um novo script, no Editor do Spark SQL, clique em Novo script. e insira suas consultas.

  7. Para salvar o script, selecione Salvar > Salvar script.

Executar um script

  1. No Editor SQL do Spark, clique na guia com a consulta que você quer executar.

  2. Clique em Selecionar ambiente. Selecione o ambiente em que você quer para executar a consulta. Se você não selecionar um ambiente, o Dataplex usa o ambiente padrão para criar uma sessão por usuário.

    É possível executar várias consultas Spark SQL no mesmo script, separando o consultas com ponto e vírgula.

  3. Clique em Executar.

  4. visualizar os resultados do histórico de consultas de cada uma das consultas no script; usando a lista suspensa.

Programar um script

É possível programar um script para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para scripts SQL.

Compartilhar um script

É possível compartilhar um script com outras pessoas na organização usando as permissões do IAM:

  1. Na visualização Explore, clique no script do Spark SQL que você quer compartilhar.

  2. No menu Mais, clique em Compartilhar.

  3. Revise as permissões. Adicionar ou remover leitor, editor e administrador do script compartilhado.

Depois que você compartilhar um script, os usuários com permissões para visualização ou edição no nível do lake podem navegar até o lake e trabalhar no script compartilhado.

Analisar dados do BigQuery e do Cloud Storage usando o Spark SQL

Para qualquer conjunto de dados do BigQuery adicionado como um recurso a uma zona, O Dataplex permite acesso direto do Spark SQL a todas as tabelas nessa no conjunto de dados. É possível consultar dados no Dataplex usando scripts SQL do Spark ou notebooks de segurança. Exemplo:

 select * from ZONE_ID.TABLE_ID

Se os recursos forem mapeados para buckets do Cloud Storage na mesma zona, O Dataplex fornece uma lista unificada de tabelas que podem usando o Spark.

Explorar dados usando notebooks

Esta seção descreve como criar, programar, compartilhar, importar e exportar notebooks de segurança.

Criar e salvar um notebook

  1. No console do Google Cloud, acesse Explorar do Dataplex página.

  2. Na visualização Análise, selecione um lake.

  3. Expanda o lake e clique na pasta Notebooks.

  4. Clique em Novo notebook.

  5. No campo Caminho do notebook, insira o nome do notebook.

  6. Opcional: no campo Descrição, insira uma descrição para o novo notebook.

  7. Opcional: adicione rótulos.

  8. Clique em Criar notebook. Um notebook foi criado.

  9. Para abrir o notebook criado, clique em Abrir notebook.

  10. Selecione um ambiente em que você quer que o Dataplex crie um sessão de usuário, ao criar ou abrir seu notebook. Certifique-se de que selecione um ambiente com pacotes confiáveis.

    Se você não selecionar um ambiente, o Dataplex vai usar o de nuvem. Se você não tiver um ambiente, crie um. Para mais informações, consulte Criar um ambiente.

    Agora é possível explorar seus dados escrevendo código Python e salvando o notebook pós-análise. Depois, é possível visualizar o notebook criado e examinar sem criar uma sessão e executar o código.

.

Programar um notebook

É possível programar um notebook para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para notebooks.

Compartilhar um notebook

É possível compartilhar um notebook com outras pessoas na organização usando as permissões do IAM:

  1. Na visualização Explorar, clique na pasta Notebooks.

  2. Selecione o notebook do Jupyter que você quer compartilhar.

  3. Clique em Compartilhar.

  4. Revise as permissões. Adicionar ou remover leitor, editor e administrador permissões para este notebook.

    Depois que você compartilhar um notebook, os usuários com permissões de leitura ou edição no lake podem navegar até o lake e trabalhar no notebook compartilhado.

Importar um notebook

É possível importar um notebook de um bucket do Cloud Storage:

  1. Na visualização Explorar, clique na pasta Notebooks.

  2. Clique em Importar.

  3. Acesse o bucket do Cloud Storage que contém o notebook que você que quiser importar.

  4. Selecione o notebook, forneça um nome e clique em Import.

    O notebook importado é criado na pasta Notebooks. Você pode abrir, editar, compartilhar e programar o notebook importado.

Exportar um notebook

É possível exportar um notebook para um bucket do Cloud Storage usadas por outras pessoas na organização com permissões do IAM.

  1. Na visualização Explorar, clique na pasta Notebooks.

  2. Marque o notebook que você quer exportar.

  3. Clique no menu e clique em Exportar.

  4. Insira o caminho do Cloud Storage para onde quer exportar o notebook.

  5. Clique em Exportar notebook.

A seguir