Instalar e executar uma anotação do Jupyter em um cluster do Dataproc


Objetivos

Neste tutorial, mostramos como instalar o Dataproc Componente Jupyter em um novo cluster e depois se conectar à UI do notebook Jupyter em execução no cluster do navegador local usando o Gateway de componentes.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Se você ainda não tiver feito isso, crie um projeto do Google Cloud e bucket do Cloud Storage.

  1. Como configurar o projeto

    1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
    2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

      Acessar o seletor de projetos

    3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

    4. Ative as APIs Dataproc, Compute Engine, and Cloud Storage.

      Ative as APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

      Acessar o seletor de projetos

    8. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

    9. Ative as APIs Dataproc, Compute Engine, and Cloud Storage.

      Ative as APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Como criar um bucket do Cloud Storage no projeto para armazenar todos os notebooks criados neste tutorial.

    1. No console do Cloud, acesse a página Buckets do Cloud Storage.

      Acessar a página "Buckets"

    2. Clique em Criar bucket.
    3. Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima etapa, clique em Continuar.
    4. Clique em Criar.
    5. Seus blocos de notas serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.

Criar um cluster e instalar o componente Jupyter

Crie um cluster com o componente Jupyter instalado.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links do gateway de componentes do console do Google Cloud. no console do Google Cloud para abrir o notebook do Jupyter ou interfaces do JupyterLab em execução no nó mestre do cluster.

O diretório de nível superior exibido pela instância do Jupyter é um diretório virtual que permite ver o conteúdo do bucket do Cloud Storage ou do sistema de arquivos local. Escolha um dos locais clicando no link GCS do Cloud Storage ou em Disco local para o sistema de arquivos local do nó mestre no cluster.

  1. Clique no link GCS. A IU da Web do notebook Jupyter exibe os notebooks armazenados no bucket do Cloud Storage, incluindo os notebooks criados neste tutorial.

Limpar

Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Excluindo o cluster

  • Para excluir o cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Exclusão do bucket

  • Para excluir o bucket do Cloud Storage criado em Antes de começar, etapa 2, incluindo os notebooks armazenadas no bucket:
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

A seguir