O workbench de análise de dados no Dataplex (Explore) permite consultar de forma interativa dados totalmente governados com acesso de um clique a scripts SQL do Spark e notebooks do Jupyter. Com o recurso "Explorar", você pode colaborar com outras equipes usando recursos integrados de publicação, compartilhamento e pesquisa de recursos de programação.
Confira como provisionar, dimensionar e gerenciar a infraestrutura sem servidor necessária para executar scripts e notebooks do Spark SQL usando credenciais de usuário. Você pode operacionalizar seu trabalho com programação sem servidor no workbench.
Este documento descreve como usar os recursos de Análise no Dataplex.
Custos
O Dataplex oferece o Explore no nível de processamento premium.
Terminologia
Neste documento, usamos os seguintes termos:
Ambiente
Um ambiente fornece recursos de computação sem servidor para que suas consultas do Spark SQL e notebooks sejam executadas em um lake. Um administrador do Dataplex cria e gerencia ambientes.
Os administradores podem autorizar um ou mais usuários a executar consultas e notebooks no ambiente configurado concedendo a eles a função de desenvolvedor do Dataplex ou as permissões do IAM associadas.
Sessão
Quando um usuário autorizado escolhe um ambiente para executar consultas e notebooks, o Dataplex usa a configuração de ambiente especificada para criar uma sessão ativa específica do usuário. Dependendo da configuração do ambiente, se uma sessão não estiver em uso, ela será encerrada automaticamente.
Leva alguns minutos para iniciar uma nova sessão por usuário. Quando uma sessão é iniciada, ela executa consultas e notebooks subsequentes para o mesmo usuário. Uma sessão fica ativa por no máximo 10 horas.
Para um ambiente, o Dataplex cria apenas uma sessão por usuário, que é compartilhada por scripts do Spark SQL e notebooks do Jupyter.
O Dataplex usa as credenciais do usuário em uma sessão para executar operações, como consultar os dados do Cloud Storage e do BigQuery.
Nó
Um nó especifica a capacidade de computação em uma configuração de ambiente. Um nó é mapeado para quatro unidades de computação de dados (DCUs), que podem ser comparadas a quatro vCPUs e 16 GB de RAM.
Ambiente padrão
É possível criar um ambiente padrão por lake com o ID default
.
Um ambiente padrão precisa usar uma configuração padrão. Uma configuração padrão
consiste no seguinte:
- Capacidade de computação de um nó
- Tamanho do disco principal de 100 GB
- O encerramento automático da sessão (tempo de encerramento automático) está definido como 10 minutos de inatividade
- O parâmetro
sessionSpec.enableFastStartup
, que é definido comotrue
por padrão. Quando esse parâmetro é definido comotrue
, o Dataplex pré-provisiona as sessões para esse ambiente para que elas fiquem disponíveis imediatamente, o que reduz o tempo de inicialização da sessão inicial. - Uma sessão de inicialização rápida é uma sessão de nó único, que o Dataplex cobra com taxas de SKU de processamento premium semelhantes a uma sessão normal. Uma sessão sempre ativa está disponível para a inicialização rápida, que gera custos mesmo quando não está em uso. O Dataplex mantém essa sessão pré-criada por 10 horas, desativa e cria uma nova sessão.
Se você não selecionar um ambiente explicitamente e tiver configurado um ambiente padrão antes, o Dataplex vai usar o ambiente padrão para criar sessões.
Script do SQL
Um script SQL é um script do Spark SQL salvo como conteúdo em um data lake do Dataplex. Você pode salvar o script em um lago e compartilhar com outros principais. Além disso, é possível programá-lo para ser executado como um job Spark em lote sem servidor no Dataplex. O Dataplex permite o acesso pronto do Spark SQL a tabelas que mapeiam dados no Cloud Storage e no BigQuery.
Notebook
Um notebook Python 3 é um notebook do Jupyter que você salva como conteúdo em um lago do Dataplex. É possível salvar um notebook como conteúdo em um lake e compartilhar com outros administradores ou programar para executar como um job em lote do Dataproc sem servidor no Dataplex.
Para dados no BigQuery, é possível acessar as tabelas do BigQuery diretamente pelo Spark sem usar o comando mágico %%bigquery
.
Antes de começar
Antes de começar, vincule seu lake ao Metastore do Dataproc e conceda as funções necessárias.
Vincular seu data lake ao metastore do Dataproc (DPMS)
Para usar o recurso Explorar, faça o seguinte:
- Associe uma instância do metastore do Dataproc (DPMS) ativada pelo gRPC na versão 3.1.2 ou mais recente com o lake do Dataplex.
- Verifique se você tem um Metastore do Dataproc e um ambiente mapeado para o lake.
Saiba como configurar o Dataproc Metastore com o Dataplex para acessar metadados no Spark.
Funções exigidas
Dependendo das ações que você planeja realizar, é necessário ter todos os seguintes papéis do IAM. Todos os ambientes em um lake herdam as permissões concedidas no nível do lake.
- Leitor do Dataplex
- Desenvolvedor do Dataplex
- Leitor de metadados do Dataplex
- Leitor de dados do Dataplex
Outros papéis:
Geração de registros
Para entender o uso do recurso Explorar, consulte os seguintes documentos:
Limitações conhecidas
Esta seção descreve as limitações conhecidas do recurso "Explorar".
O recurso "Explorar" está disponível para lagos nas seguintes regiões:
asia-northeast1
asia-southeast1
europe-west1
europe-west2
us-central1
us-east1
us-west1
É possível usar até 10 ambientes por região em um projeto. Para informações sobre como aumentar o limite de cota, consulte Como trabalhar com cotas.
É possível criar ambientes com até 150 nós. A duração da sessão para sessões de usuários individuais é restrita a 10 horas.
Os scripts do Spark SQL só podem consultar dados em um determinado data lake. Se você quiser consultar dados em outro data lake, mude para ele e selecione um ambiente.
Depois de cancelar a exclusão de um projeto, o Dataplex não restaura recursos de conteúdo, como scripts SQL ou notebooks. Tenha cuidado ao excluir um projeto com recursos de conteúdo do Google Analytics.
Ao programar um notebook, se o ambiente tiver pacotes personalizados, você poderá programar o notebook apenas usando a CLI gcloud. Para mais informações, consulte Programar blocos de notas com pacotes personalizados.
Se você excluir um ambiente antes de excluir os scripts e os notebooks, não será possível acessar a página "Explorar". Portanto, exclua os scripts e notebooks antes de excluir um ambiente no recurso "Explorar".
As sessões de análise não oferecem suporte a sistemas de arquivos distribuídos do Hadoop (HDFS). Não armazene dados do usuário em uma sessão de Explorar, porque eles são excluídos quando a sessão termina.
O limite máximo de tamanho de um notebook ou script SQL é de 1 MB.
Criar um ambiente
No console do Google Cloud , acesse a página Gerenciar lagos do Dataplex.
Selecione um lake do Dataplex para criar um ambiente.
Clique na guia Environments.
Clique em Criar ambiente.
No campo Nome de exibição, insira um nome para o ambiente.
No campo ID do ambiente, insira um ID exclusivo.
Opcional: insira uma descrição para o novo ambiente.
No painel Configurar computação, especifique o seguinte:
- Número de nós: o número de nós a serem provisionados para sessões de usuário criadas para este ambiente.
- Número máximo de nós: o número máximo de nós que o Dataplex pode escalonar automaticamente nas sessões de usuário associadas a esse ambiente.
- Tamanho do disco principal: a quantidade de tamanho de disco associada a cada nó provisionado.
- Tempo de desligamento automático: o tempo de inatividade após o qual o Dataplex encerrará automaticamente as sessões de usuário associadas a esse ambiente. É possível definir um mínimo de 10 minutos e um máximo de 60 minutos.
No painel Pacotes de software (opcional), é possível especificar outros pacotes Python, arquivos JAR e propriedades do Spark para instalar nas sessões de usuário provisionadas para esse ambiente.
Ao criar um ambiente e fornecer o caminho do Cloud Storage para JARs Java ou pacotes Python, para que o Dataplex instale os JARs ou pacotes, verifique se o agente de serviço do Cloud Dataplex tem as permissões necessárias para acessar os arquivos do Cloud Storage.
Clique em Criar.
Observações
Um nó é mapeado para quatro unidades de computação de dados (DCU, na sigla em inglês), que são comparáveis a quatro vCPUs e 16 GB de RAM.
É possível criar um ambiente com um nó ou com três ou mais nós.
Se você for um administrador do lago de dados, poderá configurar os ambientes com antecedência, permitindo que os usuários executem os workloads usando as configurações especificadas.
Embora os ambientes possam ser compartilhados com vários usuários, o Dataplex cria uma sessão separada por usuário usando a configuração do ambiente.
Criar um ambiente padrão
Consulte os requisitos de configuração para um ambiente padrão.
Console
Abra o Dataplex no console do Google Cloud .
Acesse a visualização Gerenciar.
Selecione um lake do Dataplex.
Clique na guia Environments.
Clique em Criar ambiente padrão.
gcloud
Para criar um ambiente padrão com a inicialização rápida ativada, execute o seguinte comando:
gcloud dataplex environments create default --project=PROJECT_ID --lake=LAKE_ID --location=REGION--os-image-version=latest --session-enable-fast-startup
Analisar dados usando o workbench do Spark SQL
Para analisar dados do BigQuery e do Cloud Storage, use scripts do Spark SQL.
Criar e salvar um script
No console do Google Cloud , acesse a página Explorar do Dataplex.
Na visualização Explorar, selecione o lago que contém os recursos de dados que você quer analisar.
No navegador de recursos, expanda o lago. Isso mostra as seguintes pastas:
- Dados: contém todos os bancos de dados e tabelas na instância do DPMS conectada ao data lake, incluindo as tabelas Hudi, Iceberg e Delta Lake.
- Notebooks: contém todos os notebooks criados no lago selecionado.
- Scripts do Spark SQL: contém todos os scripts do Spark SQL criados no lago selecionado.
Expanda Dados e selecione o banco de dados e a tabela necessários.
Para usar uma consulta de exemplo, clique em CONSULTA. O workbench do Spark SQL preenche automaticamente uma nova guia com uma consulta de exemplo.
Para criar um novo script, no Editor SQL do Spark, clique em Novo script e insira suas consultas.
Para salvar o script, selecione Salvar > Salvar script.
Executar um script
No Editor SQL do Spark, clique na guia com a consulta que você quer executar.
Clique em Selecionar ambiente. Selecione o ambiente em que você quer executar a consulta. Se você não selecionar um ambiente, o Dataplex usará o ambiente padrão para criar uma sessão por usuário.
É possível executar várias consultas do Spark SQL no mesmo script separando as consultas com ponto e vírgula.
Clique em Executar.
Acesse os resultados do Histórico de consultas para cada uma das consultas no script usando a lista suspensa.
Programar um script
É possível programar um script para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações para scripts SQL.
Compartilhar um script
É possível compartilhar um script com outras pessoas na organização usando as permissões do IAM:
Na visualização Explorar, clique no script do Spark SQL que você quer compartilhar.
No menu Mais, clique em Compartilhar.
Revise as permissões. Adicione ou remova as permissões de leitor, editor e administrador para o script compartilhado.
Depois que você compartilha um script, os usuários com permissões de visualização ou edição no nível do lago podem navegar até ele e trabalhar no script compartilhado.
Analisar dados do BigQuery e do Cloud Storage usando o Spark SQL
Para qualquer conjunto de dados do BigQuery adicionado como um recurso a uma zona, o Dataplex permite o acesso direto do Spark SQL a todas as tabelas nesse conjunto. É possível consultar dados no Dataplex usando scripts ou notebooks do Spark SQL. Exemplo:
select * from ZONE_ID.TABLE_ID
Se os seus recursos forem mapeados para buckets do Cloud Storage na mesma zona, o Dataplex vai fornecer uma lista unificada de tabelas que podem ser consultadas usando o Spark.
Analisar dados usando notebooks
Esta seção descreve como criar, programar, compartilhar, importar e exportar notebooks.
Criar e salvar um notebook
No console do Google Cloud , acesse a página Explorar do Dataplex.
Na visualização Explorar, selecione um lago.
Abra o lago e clique na pasta Notebooks.
Clique em Novo notebook.
No campo Caminho do notebook, informe o nome do notebook.
Opcional: no campo Descrição, forneça uma descrição para o novo caderno.
Opcional: adicione rótulos.
Clique em Criar caderno. Um notebook foi criado.
Para abrir o notebook criado, clique em Abrir notebook.
Selecione um ambiente em que você quer que o Dataplex crie uma sessão de usuário ao criar ou abrir o notebook. Selecione um ambiente com pacotes confiáveis.
Se você não selecionar um ambiente, o Dataplex vai usar o ambiente padrão. Se você não tiver um ambiente, crie um. Para mais informações, consulte Criar um ambiente.
Agora você pode analisar seus dados escrevendo código Python e salvando o notebook após a análise. Depois, você pode conferir uma prévia do notebook criado e examinar a saída dele sem criar uma sessão e executar o código.
Programar um notebook
É possível programar um notebook para ser executado como uma tarefa do Dataplex. Para mais informações, consulte Criar e gerenciar programações de notebooks.
Compartilhar um notebook
É possível compartilhar um notebook com outras pessoas na organização usando as permissões do IAM:
Na visualização Explorar, clique na pasta Notebooks.
Selecione o notebook do Jupyter que você quer compartilhar.
Clique em Compartilhar.
Revise as permissões. Adicione ou remova as permissões de leitor, editor e administrador para este notebook.
Depois que você compartilha um notebook, os usuários com permissões de visualização ou edição no nível do lago podem navegar até ele e trabalhar no notebook compartilhado.
Importar um notebook
É possível importar um notebook de um bucket do Cloud Storage:
Na visualização Explorar, clique na pasta Notebooks.
Clique em Importar.
Acesse o bucket do Cloud Storage que contém o notebook que você quer importar.
Selecione o notebook, forneça um nome e clique em Importar.
O bloco de notas importado é criado na pasta Notebooks. Você pode abrir, editar, compartilhar e programar o notebook importado.
Exportar um notebook
É possível exportar um notebook para um bucket do Cloud Storage para que ele possa ser usado por outras pessoas na organização com permissões do IAM.
Na visualização Explorar, clique na pasta Notebooks.
Marque o notebook que você quer exportar.
Clique no menu
e em Exportar.Insira o caminho do Cloud Storage para exportar o notebook.
Clique em Exportar notebook.
A seguir
- Consulte a referência da API para o recurso de tarefa.
- Gerencie seus ambientes.
- Descubra dados.
- Programe scripts e notebooks SQL.
- Gerenciar metadados.