Instalar e executar uma anotação do Jupyter em um cluster do Dataproc


Objetivos

Neste tutorial, mostramos como instalar o componente Jupyter do Dataproc em um novo cluster e, em seguida, se conectar à UI do notebook Jupyter em execução no cluster a partir do navegador local usando o gateway de componentes do Dataproc.

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Caso ainda não tenha feito isso, crie um projeto do Google Cloud e um bucket do Cloud Storage.

  1. Como configurar o projeto

    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc, Compute Engine, and Cloud Storage APIs.

      Enable the APIs

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init

  2. Como criar um bucket do Cloud Storage no projeto para armazenar todos os notebooks criados neste tutorial.

    1. In the Google Cloud console, go to the Cloud Storage Buckets page.

      Go to Buckets page

    2. Click Create bucket.
    3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
      • For Name your bucket, enter a name that meets the bucket naming requirements.
      • For Choose where to store your data, do the following:
        • Select a Location type option.
        • Select a Location option.
      • For Choose a default storage class for your data, select a storage class.
      • For Choose how to control access to objects, select an Access control option.
      • For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
    4. Click Create.
    5. Seus blocos de notas serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.

Criar um cluster e instalar o componente Jupyter

Crie um cluster com o componente Jupyter instalado.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links do Gateway de componentes do console do Google Cloud no console do Google Cloud para abrir o notebook do Jupyter ou as IUs do JupyterLab em execução no nó mestre do cluster.

O diretório de nível superior exibido pela instância do Jupyter é um diretório virtual que permite ver o conteúdo do bucket do Cloud Storage ou do sistema de arquivos local. Escolha um dos locais clicando no link GCS do Cloud Storage ou em Disco local para o sistema de arquivos local do nó mestre no cluster.

  1. Clique no link GCS. A IU da Web do notebook Jupyter exibe os notebooks armazenados no bucket do Cloud Storage, incluindo os notebooks criados neste tutorial.

Limpar

Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Exclusão do cluster

  • Para excluir o cluster:
    gcloud dataproc clusters delete cluster-name \
        --region=${REGION}
    

Exclusão do bucket

  • Para excluir o bucket do Cloud Storage criado em Antes de começar, siga a etapa 2, incluindo os notebooks armazenados no bucket:
    gcloud storage rm gs://${BUCKET_NAME} --recursive
    

A seguir