Executar uma instância de notebooks gerenciado em um cluster do Dataproc
Nesta página, mostramos como executar o arquivo de notebook de uma instância de notebooks gerenciado em um cluster do Dataproc.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
- Crie uma instância de notebook gerenciado se ainda não tiver feito isso.
Funções exigidas
Para garantir que a conta de serviço tenha as permissões necessárias para executar um arquivo de notebook em um cluster do Dataproc sem servidor, peça ao administrador para conceder à conta de serviço os seguintes papéis do IAM:
-
Worker do Dataproc (
roles/dataproc.worker
) no seu projeto -
Editor do Dataproc (
roles/dataproc.editor
) no cluster para a permissãodataproc.clusters.use
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para executar um arquivo de notebook em um cluster do Dataproc sem servidor. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para executar um arquivo de notebook em um cluster do Dataproc sem servidor:
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
O administrador também pode conceder essas permissões à conta de serviço com papéis personalizados ou outros papéis predefinidos.
Criar um cluster do Dataproc
Para executar o arquivo de notebook de uma instância de notebooks gerenciado em um cluster do Dataproc, o cluster precisa atender aos seguintes critérios:
É necessário ativar o gateway do componente do cluster.
O cluster precisa ter o componente Jupyter.
O cluster precisa estar na mesma região que a instância de notebooks gerenciados.
Para criar o cluster do Dataproc, digite o comando a seguir no Cloud Shell ou em outro ambiente em que a CLI do Google Cloud esteja instalada.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Substitua:
REGION
: o local do Google Cloud da instância de notebooks gerenciadoCLUSTER_NAME
: o nome do novo cluster.
Após alguns minutos, o cluster do Dataproc estará disponível para uso. Saiba mais sobre como criar clusters do Dataproc.
Abrir JupyterLab
Crie uma instância de notebook gerenciados na mesma região em que o cluster do Dataproc está, caso ainda não tenha feito isso.
No Console do Google Cloud, acesse a página Notebooks gerenciados.
Ao lado do nome da instância de notebooks gerenciados, clique em Abrir JupyterLab.
Executar um arquivo de notebook no cluster do Dataproc
É possível executar um arquivo de notebook no cluster do Dataproc em qualquer instância de notebooks gerenciados no mesmo projeto e região.
Executar um novo arquivo de notebook
Na interface do JupyterLab da instância de notebooks gerenciados, selecione Arquivo > Novo > Notebook.
Os kernels disponíveis do cluster do Dataproc aparecem no menu Selecionar kernel, selecione o kernel que você quer usar e clique em Selecionar.
O novo arquivo do notebook será aberto.
Adicione o código ao novo arquivo do notebook e execute o código.
Para alterar o kernel que você quer usar depois de criar o arquivo de notebook, consulte a seção a seguir.
Executar um arquivo de notebook existente
Na interface do JupyterLab da instância de notebooks gerenciados, clique no botão
Navegador de arquivos, navegue até o arquivo de notebook que você quer executar e abra-o.Para abrir a caixa de diálogo Select Kernel, clique no nome do kernel do arquivo do notebook. Por exemplo: Python (Local).
Para selecionar um kernel do cluster do Dataproc, selecione um nome do kernel que inclua o nome do cluster ao final. Por exemplo, um kernel do PySpark em um cluster do Dataproc chamado
mycluster
é chamado de PySpark em meucluster.Clique em Selecionar para fechar a caixa de diálogo.
Agora é possível executar o código do arquivo do notebook no cluster do Dataproc.
A seguir
- Saiba mais sobre o Dataproc.