É possível instalar componentes adicionais, como o Jupyter, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Jupyter.
O componente Jupyter é um notebook de usuário único baseado na Web para análise de dados interativos e é compatível com a IU da Web do JupyterLab (em inglês). A interface da Web do Jupyter está disponível na porta 8123
do primeiro nó mestre do cluster.
Iniciar notebooks para vários usuários. É possível criar uma instância do Vertex AI Workbench ativada para o Dataproc ou instalar o plug-in Dataproc do Dataproc em uma VM para disponibilizar notebooks a vários usuários.
Configure o Jupyter. O Jupyter pode ser configurado fornecendo propriedades de cluster dataproc:jupyter
.
Para reduzir o risco da execução remota de código em APIs de servidor de notebook desprotegidas, a configuração de propriedade de cluster dataproc:jupyter.listen.all.interfaces
padrão é false
, que restringe as conexões a localhost (127.0.0.1)
quando o Gateway de Componentes está ativado. A ativação do Gateway de Componentes é necessária ao instalar o componente Jupyter.
O notebook do Jupyter fornece um kernel do Python para executar o código Spark (link em inglês) e um kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage
no bucket de preparação do Dataproc, que é especificado pelo usuário ou
criado automaticamente
quando o cluster é criado. O local pode ser alterado no momento da criação do cluster usando a propriedade de cluster dataproc:jupyter.notebook.gcs.dir
.
Trabalhar com arquivos de dados. Você pode usar um notebook do Jupyter para trabalhar com arquivos de dados que foram enviados ao Cloud Storage. Como o conector do Cloud Storage é pré-instalado em um cluster do Dataproc, é possível fazer referência aos arquivos diretamente no notebook. Veja um exemplo que acessa arquivos CSV no Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Consulte Funções genéricas de carregamento e salvamento para exemplos do PySpark.
Instalar o Jupyter
Instale o componente ao criar um cluster do Dataproc. O componente Jupyter requer a ativação do Gateway de componentes do Dataproc.
Console
- Ativar o componente.
- No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel Configurar cluster está selecionado.
- Na seção Componentes:
- Em Componentes opcionais, selecione o componente Jupyter.
- Em Gateway de componentes, selecione Ativar gateway de componentes. Consulte Como visualizar e acessar URLs do gateway de componentes.
CLI da gcloud
Para criar um cluster do Dataproc que inclua o componente Jupyter, use o comando cluster-name gcloud dataproc clusters create com a sinalização --optional-components
.
Exemplo de versão de imagem padrão mais recente
O exemplo a seguir instala o componente Jupyter em um cluster que usa a versão de imagem padrão mais recente.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
O componente Jupyter pode ser instalado por meio da API Dataproc usando SoftwareConfig.Component
como parte de uma solicitação clusters.create
.
- Defina a propriedade EndpointConfig.enableHttpPortAccess como
true
como parte da solicitaçãoclusters.create
para ativar a conexão com a IU da Web do notebook Jupyter usando o Gateway de Componentes.
Abrir as IUs do Jupyter e do JupyterLab
Clique nos links do Gateway de componentes do console do Google Cloud para abrir no navegador local o notebook do Jupyter ou a interface do JupyterLab em execução no nó mestre do cluster.
Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em um local ou em outro.
Anexar GPUs a nós mestres e de trabalho
É possível adicionar GPUs aos nós mestre e de trabalho do cluster ao usar um notebook do Jupyter para:
- Pré-processe dados no Spark, colete um DataFrame no mestre e execute o TensorFlow
- Usar o Spark para orquestrar execuções do TensorFlow em paralelo
- execute o Tensorflow-on-YARN;
- Usar com outros cenários de machine learning que usam GPUs