Objetivos
Neste tutorial, mostramos como instalar os componentes Jupyter e Anaconda do Dataproc em um novo cluster e, em seguida, se conectar à IU do notebook Jupyter em execução no cluster a partir do navegador local. usando o gateway de componentes do Dataproc
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Antes de começar
Caso ainda não tenha feito isso, crie um projeto do Google Cloud Platform e um bucketdo Cloud Storage.
Como configurar o projeto
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Dataproc, Compute Engine, and Cloud Storage.
- Instale a CLI do Google Cloud.
-
Para inicializar a CLI gcloud, execute o seguinte comando:
gcloud init
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Dataproc, Compute Engine, and Cloud Storage.
- Instale a CLI do Google Cloud.
-
Para inicializar a CLI gcloud, execute o seguinte comando:
gcloud init
Como criar um bucket do Cloud Storage no projeto para armazenar todos os notebooks criados neste tutorial.
- No console do Cloud, acesse a página Buckets do Cloud Storage.
- Clique em Criar bucket.
- Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima
etapa, clique em Continuar.
- Em Nomear o bucket, insira um nome que atenda aos requisitos de nomenclatura de bucket.
-
Em Escolha um local para armazenar seus dados, faça o seguinte:
- Selecione uma opção de Tipo de local.
- Escolha uma opção de Local.
- Em Escolher uma classe de armazenamento padrão para seus dados, selecione uma classe de armazenamento.
- Em Escolha como controlar o acesso a objetos, selecione uma opção de Controle de acesso.
- Em Configurações avançadas (opcional), especifique um método de criptografia, uma política de retenção ou rótulos de bucket.
- Clique em Criar. Seus blocos de notas serão armazenados no Cloud Storage em
gs://bucket-name/notebooks/jupyter
.
Criar um cluster e instalar o componente Jupyter
Crie um cluster com o componente Jupyter instalado.
Abrir as IUs do Jupyter e do JupyterLab
Clique nos links do gateway de componentes do console do Google Cloud. no console do Google Cloud para abrir o notebook do Jupyter ou interfaces do JupyterLab em execução no nó mestre do cluster.
O diretório de nível superior exibido pela instância do Jupyter é um diretório virtual que permite ver o conteúdo do bucket do Cloud Storage ou do sistema de arquivos local. Escolha um dos locais clicando no link GCS do Cloud Storage ou em Disco local para o sistema de arquivos local do nó mestre no cluster.
- Clique no link GCS. A IU da Web do notebook Jupyter exibe os notebooks armazenados no bucket do Cloud Storage, incluindo os notebooks criados neste tutorial.
Limpar
Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Excluindo o cluster
- Para excluir o cluster:
gcloud dataproc clusters delete cluster-name \ --region=${REGION}
Exclusão do bucket
- Para excluir o bucket do Cloud Storage criado em
Antes de começar, etapa 2, incluindo os notebooks
armazenadas no bucket:
gcloud storage rm gs://${BUCKET_NAME} --recursive