Instalar e executar uma anotação do Jupyter em um cluster do Dataproc

Antes de começar

Caso ainda não tenha feito isso, crie um projeto do Google Cloud Platform e um bucketdo Cloud Storage.

Criar o projeto

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Cloud, na página do seletor de projetos, selecione ou crie um projeto do Cloud.

    Acessar a página do seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud. Saiba como confirmar se a cobrança está ativada para o seu projeto.

  4. Ative as APIs Dataproc and Compute Engine.

    Ative as APIs

  5. Instale e inicialize o SDK do Cloud..

Crie um bucket do Cloud Storage no projeto

  1. No Console do Cloud, acesse a página Navegador do Cloud Storage.

    Acessar a página "Navegador do Cloud Storage"

  2. Clique em Criar bucket.
  3. Na caixa de diálogo Criar bucket, especifique os seguintes atributos.
  4. Clique em Criar
  5. Seus notebooks serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.

Criar um cluster e instalar o componente Jupyter

Comando gcloud

  1. Execute localmente o seguinte comando gcloud beta dataproc clusters create em uma janela de terminal ou no Cloud Shell:

    1. crie o cluster e instale os componentes do Jupyter e do Anaconda no nó mestre do cluster
    2. ative o Gateway de componentes

    Insira os valores para cluster-name, bucket-name e project-id no comando abaixo. Para bucket-name, especifique o nome do bucket criado em Criar um bucket do Cloud Storage no projeto (especifique apenas o nome do bucket). Seus blocos de notas serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.

    Linux/macOS

    gcloud beta dataproc clusters create cluster-name \
        --optional-components=ANACONDA,JUPYTER \
        --image-version=1.3 \
        --enable-component-gateway \
        --bucket=bucket-name \
        --region=region \
        --project=project-id
    

    Windows

    gcloud dataproc clusters create cluster-name ^
        --optional-components=ANACONDA,JUPYTER ^
        --image-version=1.3 ^
        --enable-component-gateway ^
        --bucket=bucket-name ^
        --region=region ^
        --project=project-id
    

Console

  1. Acesse a página Clusters do Dataproc no Console do Cloud.
  2. Clique em Criar cluster para abrir a página "Criar um cluster".
  3. Digite o nome do cluster no campo Nome.
  4. Selecione uma região e uma zona para o cluster nos menus suspensos Região e Zona. Consulte Regiões e zonas disponíveis. Especifique uma região distinta e selecione "Sem preferência" para a zona a fim de permitir que o Dataproc escolha uma zona dentro da região selecionada para o cluster. Consulte Colocação em zona automática do Dataproc). Em vez disso, selecione uma região de global, que é um namespace especial de várias regiões capaz de implantar instâncias em todas as zonas do Compute Engine globalmente. Ao selecionar uma região global, você também precisa selecionar uma zona.
  5. Marque a caixa de seleção "Gateway de componentes".
  6. Expanda o painel Opções avançadas.

  7. Digite o nome do bucket criado em Criar um Cloud Storage no projeto, no campo bucket de preparo do Cloud Storage. Só especifique o nome do bucket. Seus blocos de notas serão armazenados no Cloud Storage em gs://bucket-name/notebooks/jupyter.
  8. Clique em "Selecionar componente" para abrir o painel de seleção de componentes opcionais.
  9. Selecione os componentes "Anaconda" e "Jupyter Notebook".
  10. Você pode usar os padrões fornecidos para as outras opções.

  11. Clique em criar para criar o cluster e instalar os componentes e o gateway do componente no nó mestre do cluster.

Abrir a anotação do Jupyter no navegador local

  1. Navegue até o formulário Clusters do Dataproc no Google Cloud Console e selecione o cluster para abrir o formulário Detalhes do cluster. Clique na guia Interfaces da Web para exibir uma lista de links do Gateway de componentes para as interfaces da Web dos componentes padrão e opcionais instalados no cluster.

  2. Clique no link Jupyter. A IU da Web do notebook do Jupyter será aberta no navegador local.