Instalar e executar uma anotação do Jupyter em um cluster do Dataproc


Objetivos

Neste tutorial, mostramos como instalar os componentes Jupyter e Anaconda do Dataproc em um novo cluster e, em seguida, se conectar à IU do notebook Jupyter em execução no cluster a partir do navegador local. usando o gateway de componentes do Dataproc

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Caso ainda não tenha feito isso, crie um projeto do Google Cloud Platform e um bucketdo Cloud Storage.

  1. Configurando o projeto

    1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
    2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

      Acessar o seletor de projetos

    3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

    4. Ative as APIs Dataproc, Compute Engine, and Cloud Storage.

      Ative as APIs

    5. Instale a CLI do Google Cloud.
    6. Para inicializar a CLI gcloud, execute o seguinte comando:

      gcloud init
    7. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

      Acessar o seletor de projetos

    8. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

    9. Ative as APIs Dataproc, Compute Engine, and Cloud Storage.

      Ative as APIs

    10. Instale a CLI do Google Cloud.
    11. Para inicializar a CLI gcloud, execute o seguinte comando:

      gcloud init

  2. Como criar um bucket do Cloud Storage no projeto para armazenar todos os notebooks criados neste tutorial.

    1. No console do Cloud, acesse a página Buckets do Cloud Storage.

      Acessar a página "Buckets"

    2. Clique em Criar bucket.
    3. Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima etapa, clique em Continuar.
    4. Clique em Criar.
    5. Seus blocos de notas serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.

Criar um cluster e instalar o componente Jupyter

Crie um cluster com o componente Jupyter instalado.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links do Gateway de componentes do console do Google Cloud no console do Google Cloud para abrir o notebook Jupyter ou as interfaces do JupyterLab em execução no nó mestre do cluster.

O diretório de nível superior exibido pela instância do Jupyter é um diretório virtual que permite ver o conteúdo do bucket do Cloud Storage ou do sistema de arquivos local. Escolha um dos locais clicando no link GCS do Cloud Storage ou em Disco local para o sistema de arquivos local do nó mestre no cluster.

  1. Clique no link GCS. A IU da Web do notebook Jupyter exibe os notebooks armazenados no bucket do Cloud Storage, incluindo os notebooks criados neste tutorial.

Limpar

Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto, faça o seguinte:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Exclusão do cluster

  • Para excluir o cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Exclusão do bucket

  • Para excluir o bucket do Cloud Storage criado em Antes de começar, siga a etapa 2, incluindo os notebooks armazenados no bucket:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

A seguir