É possível instalar outros componentes, como o Jupyter, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Jupyter.
O componente Jupyter (link em inglês) é um notebook de um único usuário baseado na Web para análise de dados interativa e oferece suporte à interface da Web do JupyterLab (link em inglês). A IU da Web do Jupyter está disponível na porta 8123
do primeiro nó mestre do cluster.
Iniciar notebooks para vários usuários. É possível criar uma instância do Vertex AI Workbench ativada pelo Dataproc ou instalar o plug-in JupyterLab do Dataproc em uma VM para fornecer notebooks a vários usuários.
Configure o Jupyter. O Jupyter pode ser configurado fornecendo propriedades do cluster dataproc:jupyter
.
Para reduzir o risco de execução remota de código em APIs de servidor de notebook
não seguras, a configuração padrão da propriedade de cluster dataproc:jupyter.listen.all.interfaces
é false
, que restringe as conexões a localhost (127.0.0.1)
quando
o Gateway de componentes está
ativado. A ativação do Gateway de componentes é necessária ao instalar o componente Jupyter.
O notebook do Jupyter fornece um kernel do Python para executar o código Spark e um
kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage
no bucket de preparação do Dataproc, que é especificado pelo usuário ou
criado automaticamente
na criação do cluster. O local pode ser alterado no momento da criação do cluster usando a propriedade
dataproc:jupyter.notebook.gcs.dir
.
Trabalhar com arquivos de dados. É possível usar um notebook do Jupyter para trabalhar com arquivos de dados que foram carregados no Cloud Storage. Como o conector do Cloud Storage é pré-instalado em um cluster do Dataproc, é possível fazer referência aos arquivos diretamente no notebook. Confira um exemplo que acessa arquivos CSV no Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Consulte Funções genéricas de carregar e salvar para conferir exemplos do PySpark.
Instalar o Jupyter
Instale o componente ao criar um cluster do Dataproc. O componente Jupyter requer a ativação do gateway de componentes do Dataproc.
Console
- Ativar o componente.
- No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel Configurar cluster está selecionado.
- Na seção Componentes:
- Em Componentes opcionais, selecione o componente Jupyter.
- Em Gateway de componentes, selecione Ativar gateway de componentes (consulte Como ver e acessar URLs do gateway de componentes).
CLI da gcloud
Para criar um cluster do Dataproc que inclua o componente Jupyter,
use o comando gcloud dataproc clusters create cluster-name com a flag --optional-components
.
Exemplo da versão de imagem padrão mais recente
O exemplo a seguir instala o componente Jupyter em um cluster que usa a versão de imagem padrão mais recente.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
O componente Jupyter
pode ser instalado pela API Dataproc usando
SoftwareConfig.Component
como parte de uma
solicitação clusters.create
.
- Defina a propriedade EndpointConfig.enableHttpPortAccess
como
true
na solicitaçãoclusters.create
para ativar a conexão com a IU da Web do notebook Jupyter usando o Gateway de componentes.
Abrir as IUs do Jupyter e do JupyterLab
Clique nos links do Gateway de componentes do console do Google Cloud para abrir no navegador local a IU do Jupyter Notebook ou do JupyterLab em execução no nó mestre do cluster.
Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em um local ou em outro.
Anexar GPUs a nós mestres e de trabalho
É possível adicionar GPUs aos nós mestre e de trabalho do cluster ao usar um notebook do Jupyter para:
- Pré-processar dados no Spark, coletar um DataFrame no mestre e executar o TensorFlow
- Usar o Spark para orquestrar execuções do TensorFlow em paralelo
- Execute Tensorflow-on-YARN
- Usar com outros cenários de machine learning que usam GPUs