Execute uma instância de notebooks geridos num cluster do Dataproc
Esta página mostra como executar o ficheiro de bloco de notas de uma instância de blocos de notas geridos num cluster do Dataproc.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Se ainda não o fez, crie uma instância de blocos de notas geridos.
-
Trabalhador do Dataproc (
roles/dataproc.worker
) no seu projeto -
Editor do Dataproc (
roles/dataproc.editor
) no cluster para a autorizaçãodataproc.clusters.use
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
O gateway de componentes do cluster tem de estar ativado.
O cluster tem de ter o componente Jupyter.
O cluster tem de estar na mesma região que a instância dos blocos de notas geridos.
REGION
: a Google Cloud localização da instância dos notebooks geridosCLUSTER_NAME
: o nome do seu novo clusterSe ainda não o fez, crie uma instância de blocos de notas geridos na mesma região onde se encontra o cluster do Dataproc.
Na Google Cloud consola, aceda à página Blocos de notas geridos.
Junto ao nome da instância de blocos de notas geridos, clique em Abrir JupyterLab.
Na interface do JupyterLab da instância de notebooks geridos, selecione Ficheiro > Novo > Notebook.
Os kernels disponíveis do cluster do Dataproc aparecem no menu Selecionar kernel. Selecione o kernel que quer usar e, de seguida, clique em Selecionar.
O novo ficheiro do bloco de notas é aberto.
Adicione código ao novo ficheiro de notebook e execute o código.
Na interface do JupyterLab da instância de blocos de notas geridos, clique no botão
Explorador de ficheiros, navegue para o ficheiro de bloco de notas que quer executar e abra-o.Para abrir a caixa de diálogo Selecionar kernel, clique no nome do kernel do ficheiro do bloco de notas, por exemplo: Python (Local).
Para selecionar um kernel do seu cluster do Dataproc, selecione um nome de kernel que inclua o nome do cluster no final. Por exemplo, um kernel do PySpark num cluster do Dataproc com o nome
mycluster
tem o nome PySpark on mycluster.Clique em Selecionar para fechar a caixa de diálogo.
Agora, pode executar o código do ficheiro de bloco de notas no cluster do Dataproc.
- Saiba mais acerca do Dataproc.
Funções necessárias
Para garantir que a conta de serviço tem as autorizações necessárias para executar um ficheiro de bloco de notas num cluster Serverless para Apache Spark, peça ao seu administrador para conceder à conta de serviço as seguintes funções do IAM:
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Estas funções predefinidas contêm as autorizações necessárias para executar um ficheiro de bloco de notas num cluster Serverless para Apache Spark. Para ver as autorizações exatas que são necessárias, expanda a secção Autorizações necessárias:
Autorizações necessárias
São necessárias as seguintes autorizações para executar um ficheiro do bloco de notas num cluster Serverless para Apache Spark:
O administrador também pode atribuir estas autorizações à conta de serviço com funções personalizadas ou outras funções predefinidas.
Crie um cluster do Dataproc
Para executar o ficheiro de bloco de notas de uma instância de blocos de notas geridos num cluster do Dataproc, o cluster tem de cumprir os seguintes critérios:
Para criar o cluster do Dataproc, introduza o seguinte comando no Cloud Shell ou noutro ambiente onde a Google Cloud CLI está instalada.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
Substitua o seguinte:
Após alguns minutos, o cluster do Dataproc está disponível para utilização. Saiba como criar clusters do Dataproc.
Abra o JupyterLab
Execute um ficheiro de bloco de notas no cluster do Dataproc
Pode executar um ficheiro de bloco de notas no cluster do Dataproc a partir de qualquer instância de blocos de notas geridos no mesmo projeto e região.
Execute um novo ficheiro de notebook
Para alterar o kernel que quer usar depois de criar o ficheiro do bloco de notas, consulte a secção seguinte.