Instalar e executar uma anotação do Jupyter em um cluster do Dataproc

Objetivos

Neste tutorial, mostramos como instalar os componentes Jupyter e Anaconda do Dataproc em um novo cluster e, em seguida, se conectar à IU do notebook Jupyter em execução no cluster a partir do navegador local. usando o gateway de componentes do Dataproc

Custos

Neste tutorial, usamos os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Caso ainda não tenha feito isso, crie um projeto do Google Cloud Platform e um bucketdo Cloud Storage.

  1. Como configurar o projeto

    1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
    2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

      Acessar o seletor de projetos

    3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

    4. Ative as APIs Dataproc, Compute Engine, and Cloud Storage.

      Ative as APIs

    5. Instale e inicialize o SDK do Cloud..
    6. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

      Acessar o seletor de projetos

    7. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

    8. Ative as APIs Dataproc, Compute Engine, and Cloud Storage.

      Ative as APIs

    9. Instale e inicialize o SDK do Cloud..

  2. Como criar um bucket do Cloud Storage no projeto para armazenar todos os notebooks criados neste tutorial.

    1. No Console do Cloud, acesse a página Navegador do Cloud Storage.

      Acessar o navegador

    2. Clique em Criar bucket.
    3. Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima etapa, clique em Continuar.
    4. Clique em Criar.
    5. Seus blocos de notas serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.

Criar um cluster e instalar o componente Jupyter

Crie um cluster com o componente Jupyter instalado.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links de gateway de componente do Console do Cloud no Console do Cloud para abrir o notebook do Jupyter ou as IUs do JupyterLab em execução no nó mestre do cluster.

O diretório de nível superior exibido pela instância do Jupyter é um diretório virtual que permite ver o conteúdo do bucket do Cloud Storage ou do sistema de arquivos local. Escolha um dos locais clicando no link GCS do Cloud Storage ou em Disco local para o sistema de arquivos local do nó mestre no cluster.

  1. Clique no link GCS. A IU da Web do notebook Jupyter exibe os notebooks armazenados no bucket do Cloud Storage, incluindo os notebooks criados neste tutorial.

Limpar

Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Exclusão do cluster

  • Para excluir o cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Exclusão do bucket

  • Para excluir o bucket do Cloud Storage criado em Antes de começar, siga a etapa 2, incluindo os notebooks armazenados no bucket:
    gsutil -m rm -r gs://${BUCKET_NAME}
    

A seguir