É possível instalar outros componentes, como o Jupyter, ao criar um cluster usando o Componentes opcionais . Nesta página, você conhecerá o componente Jupyter.
O componente Jupyter
é um notebook de usuário único baseado na Web para análise de dados interativos e compatível com
JupyterLab
IU da Web. A interface da Web do Jupyter está disponível na porta 8123
do primeiro nó mestre do cluster.
Iniciar notebooks para vários usuários. Você pode criar uma instância Instância do Vertex AI Workbench ou instale o plug-in do Dataproc JupyterLab em uma VM para exibir notebooks a vários usuários.
Configure o Jupyter. Para configurar o Jupyter, forneça dataproc:jupyter
propriedades do cluster.
Para reduzir o risco da execução remota de código em um servidor de notebook desprotegido
APIs, a propriedade de cluster dataproc:jupyter.listen.all.interfaces
padrão
configuração é false
, que restringe as conexões a localhost (127.0.0.1)
quando
o Gateway de Componentes está
ativado (a ativação do Gateway de componentes é necessária ao instalar o componente Jupyter).
O notebook do Jupyter fornece um kernel em Python para executar o código Spark (link em inglês) e uma
Kernel do PySpark. Por padrão, os notebooks são salvos no Cloud Storage
no bucket de preparo do Dataproc, que é especificado pelo usuário ou
criação automática
quando o cluster for criado. Para alterar o local no momento da criação do cluster, use o
propriedade de cluster dataproc:jupyter.notebook.gcs.dir
.
Trabalhar com arquivos de dados. Você pode usar um notebook Jupyter para trabalhar com arquivos de dados que foram enviado para o Cloud Storage. Como o conector do Cloud Storage pré-instalado em um cluster do Dataproc, poderá consultar o arquivos diretamente no seu notebook. Aqui está um exemplo que acessa arquivos CSV em Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
Consulte Funções genéricas para carregar e salvar para exemplos do PySpark.
Instalar o Jupyter
Instale o componente ao criar um cluster do Dataproc. O componente Jupyter requer a ativação do Dataproc Gateway de componentes.
Console
- Ativar o componente.
- No console do Google Cloud, abra o Dataproc Criar um cluster página. O painel Configurar cluster está selecionado.
- Na seção Componentes:
- Em Componentes opcionais, selecione o Jupyter do Google Cloud.
- Em Gateway de componentes, selecione Ativar gateway de componente (consulte Como visualizar e acessar URLs do Gateway de Componentes).
CLI da gcloud
Para criar um cluster do Dataproc que inclua o componente Jupyter,
use o método
O comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components
.
Exemplo de versão de imagem padrão mais recente
O exemplo a seguir instala a biblioteca Jupyter em um cluster que usa a versão mais recente da imagem padrão.
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
API REST
O componente Jupyter
podem ser instalados pela API Dataproc usando
SoftwareConfig.Component
como parte de um
clusters.create
solicitação.
- Defina EndpointConfig.enableHttpPortAccess
propriedade para
true
como parte doclusters.create
para ativar a conexão com a interface da Web do notebook Jupyter usando o Gateway de componentes.
Abrir as IUs do Jupyter e do JupyterLab
Clique nos links do gateway de componentes do console do Google Cloud. abrir no navegador local o notebook do Jupyter ou a interface do JupyterLab em execução no nó mestre do cluster.
Selecione "GCS" ou "Disco local" para criar um novo Jupyter Notebook em um local ou em outro.
Anexar GPUs a nós mestres e de trabalho
É possível adicionar GPUs aos nós mestre e de trabalho do cluster ao usar um notebook do Jupyter para:
- Pré-processar dados no Spark e, em seguida, coletar um DataFrame no mestre e executar TensorFlow
- Usar o Spark para orquestrar execuções do TensorFlow em paralelo
- Execute Tensorflow-on-YARN
- Usar com outros cenários de machine learning que usam GPUs