Esta página foi traduzida pela API Cloud Translation.

Componente Jupyter opcional do Dataproc

É possível instalar outros componentes, como o Jupyter, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Jupyter.

O componente Jupyter é um notebook baseado na Web para análise de dados interativa e é compatível com a IU da Web do JupyterLab. A IU da Web do Jupyter está disponível na porta 8123 do primeiro node mestre do cluster.

O notebook do Jupyter fornece um kernel do Python para executar o código Spark e um kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage no bucket de preparação do Dataproc, que é especificado pelo usuário ou criado automaticamente na criação do cluster. O local pode ser alterado no momento da criação do cluster por meio da propriedade do cluster dataproc:jupyter.notebook.gcs.dir.

Como trabalhar com arquivos de dados. É fácil usar um notebook do Jupyter para trabalhar com arquivos de dados que foram carregados no Cloud Storage. Como o conector do Cloud Storage é pré-instalado em um cluster do Dataproc, você pode referenciar os arquivos diretamente no notebook. Aqui está um exemplo que acessa arquivos CSV no Cloud Storage (consulte Funções gerais de carregar e salvar, em inglês) para mais exemplos de como carregar e salvar dados do PySpark:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Instalar o Jupyter

Instale o componente ao criar um cluster do Dataproc. O componente Jupyter requer a ativação do Gateway de componentes do Dataproc. Ao usar a versão 1.5 da imagem, a instalação do componente Jupyter também requer a instalação do componente Anaconda.

Console

Ativar o componente.
- No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel Configurar cluster está selecionado.
- Na seção Componentes, faça o seguinte:
  - Em Componentes opcionais, selecione o componente Jupyter e, se estiver usando a versão 1.5 da imagem, o componente Anaconda.
  - Em Gateway de componentes, selecione Ativar gateway de componente. Consulte Visualizar e acessar URLs do Gateway de componentes.

CLI da gcloud

Para criar um cluster do Dataproc que inclua o componente Jupyter, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

Exemplo mais recente da versão de imagem padrão

O exemplo a seguir instala o componente Jupyter em um cluster que usa a versão de imagem padrão mais recente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

Exemplo da versão de imagem 1.5

O exemplo de versão de imagem 1.5 a seguir instala os componentes do Jupyter e do Anaconda. A instalação do componente Anaconda é necessária ao usar a versão 1.5 da imagem.

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --image-version=1.5 \
    --enable-component-gateway \
    ... other flags

API REST

O componente Jupyter pode ser instalado por meio da API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create. A instalação do componente Anaconda também é necessária ao usar a versão 1.5 da imagem.

Defina a propriedade EndpointConfig.enableHttpPortAccess como true como parte da solicitação clusters.create para ativar a conexão com a IU da Web do notebook Jupyter usando o Gateway de componentes.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos links do Gateway de componentes do console do Google Cloud para abrir no navegador local o notebook Jupyter ou a interface do JupyterLab em execução no nó mestre do cluster.

Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em um local ou em outro.

Como anexar GPUs a nós mestres e/ou de trabalho

É possível adicionar GPUs aos nós mestre e de trabalho do cluster ao usar um notebook do Jupyter para:

Pré-processar dados no Spark, coletar um DataFrame no mestre e executar o TensorFlow
Usar o Spark para orquestrar execuções do TensorFlow em paralelo
Execute o Tensorflow-on-YARN
Usar com outros cenários de machine learning que usam GPUs