Componente Jupyter do Cloud Dataproc

É possível instalar componentes adicionais na criação de um cluster do Cloud Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Jupyter.

O Jupyter (em inglês) é um notebook baseado na Web para análise de dados interativos. A IU da Web do Jupyter está disponível na porta 8123 do primeiro node mestre do cluster.

O notebook fornece um kernel do Python para executar o código Spark (em inglês) e um kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage no intervalo de preparação do Cloud Dataproc, que é especificado pelo usuário ou criado automaticamente na criação do cluster. Nesse momento, é possível alterar o local por meio da propriedade dataproc:jupyter.notebook.gcs.dir.

Instale o Jupyter e o Anaconda

Instale o componente ao criar um cluster do Cloud Dataproc. Os componentes podem ser adicionados aos clusters criados com o Cloud Dataproc versão 1.3 ou posterior. Para utilizar o componente Jupyter, é preciso instalar o Anaconda (conforme mostrado no exemplo da ferramenta de linha de comando gcloud abaixo).

Consulte as versões compatíveis com o Cloud Dataproc para ter acesso à versão do componente incluída em cada versão de imagem do Cloud Dataproc.

Comando gcloud

Para criar um cluster do Cloud Dataproc que inclua o componente Jupyter, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components (usando a versão da imagem 1.3 ou posterior).

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --image-version=1.3 \
    --enable-component-gateway \
    ... other flags

API REST

Especifique os componentes Jupyter e Anaconda por meio da API do Cloud Dataproc usando o SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

  1. Ativar o componente.
    • No Console do GCP, abra a página Criar um cluster do Cloud Dataproc. Clique em "Opções avançadas" na parte inferior da página para visualizar a seção "Componentes opcionais".

    • Clique em "Selecionar componente" para abrir o painel de seleção de Componentes opcionais. Selecione "Anaconda", "Jupyter Notebook" e outros componentes opcionais para instalar no cluster.

  2. Habilite o Gateway de Componentes (requer a versão de imagem 1.3.29 ou superior) para permitir acesso fácil ao notebook Jupyter e a outras interfaces da Web de componentes no Console do Google Cloud Platform (consulte Como Visualizar e Acessar URLs do Gateway de Componentes).
    • Marque a caixa de seleção "Gateway de Componentes" no formulário "Criar um cluster".

Abrir as IUs do Jupyter e do JupyterLab

Consulte Como Visualizar e Acessar URLs do Gateway de Componentes e clique nos links do Gateway de Componentes no Console do GCP para abrir o notebook Jupyter e as IUs do JupyterLab em execução no nó mestre do cluster em seu navegador local.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Cloud Dataproc
Precisa de ajuda? Acesse nossa página de suporte.