Componente Jupyter opcional do Dataproc

É possível instalar outros componentes, como o Jupyter, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Jupyter.

O componente Jupyter (link em inglês) é um notebook de um único usuário baseado na Web para análise de dados interativa e oferece suporte à interface da Web do JupyterLab (link em inglês). A IU da Web do Jupyter está disponível na porta 8123 do primeiro nó mestre do cluster.

Iniciar notebooks para vários usuários. É possível criar uma instância do Vertex AI Workbench ativada pelo Dataproc ou instalar o plug-in JupyterLab do Dataproc em uma VM para fornecer notebooks a vários usuários.

Configure o Jupyter. O Jupyter pode ser configurado fornecendo propriedades do cluster dataproc:jupyter. Para reduzir o risco de execução remota de código em APIs de servidor de notebook não seguras, a configuração padrão da propriedade de cluster dataproc:jupyter.listen.all.interfaces é false, que restringe as conexões a localhost (127.0.0.1) quando o Gateway de componentes está ativado. A ativação do Gateway de componentes é necessária ao instalar o componente Jupyter.

O notebook do Jupyter fornece um kernel do Python para executar o código Spark e um kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage no bucket de preparação do Dataproc, que é especificado pelo usuário ou criado automaticamente na criação do cluster. O local pode ser alterado no momento da criação do cluster usando a propriedade dataproc:jupyter.notebook.gcs.dir.

Trabalhar com arquivos de dados. É possível usar um notebook do Jupyter para trabalhar com arquivos de dados que foram carregados no Cloud Storage. Como o conector do Cloud Storage é pré-instalado em um cluster do Dataproc, é possível fazer referência aos arquivos diretamente no notebook. Confira um exemplo que acessa arquivos CSV no Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Consulte Funções genéricas de carregar e salvar para conferir exemplos do PySpark.

Instalar o Jupyter

Instale o componente ao criar um cluster do Dataproc. O componente Jupyter requer a ativação do gateway de componentes do Dataproc.

Console

  1. Ativar o componente.

CLI da gcloud

Para criar um cluster do Dataproc que inclua o componente Jupyter, use o comando gcloud dataproc clusters create cluster-name com a flag --optional-components.

Exemplo da versão de imagem padrão mais recente

O exemplo a seguir instala o componente Jupyter em um cluster que usa a versão de imagem padrão mais recente.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API REST

O componente Jupyter pode ser instalado pela API Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.

Abrir as IUs do Jupyter e do JupyterLab

Clique nos Google Cloud links do Gateway de componentes do console para abrir no navegador local o notebook Jupyter ou a IU do JupyterLab em execução no nó mestre do cluster.

Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em um local ou em outro.

Anexar GPUs a nós mestres e de trabalho

É possível adicionar GPUs aos nós mestre e de trabalho do cluster ao usar um notebook do Jupyter para:

  1. Pré-processar dados no Spark, coletar um DataFrame no mestre e executar o TensorFlow
  2. Usar o Spark para orquestrar execuções do TensorFlow em paralelo
  3. Execute Tensorflow-on-YARN
  4. Usar com outros cenários de machine learning que usam GPUs