Esta página foi traduzida pela API Cloud Translation.

Execute uma instância de notebooks geridos num cluster do Dataproc

Esta página mostra como executar o ficheiro de bloco de notas de uma instância de blocos de notas geridos num cluster do Dataproc.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Dataproc APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Notebooks and Dataproc APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Se ainda não o fez, crie uma instância de blocos de notas geridos.

Funções necessárias

Para garantir que a conta de serviço tem as autorizações necessárias para executar um ficheiro de bloco de notas num cluster Serverless para Apache Spark, peça ao seu administrador para conceder à conta de serviço as seguintes funções do IAM:

Trabalhador do Dataproc (roles/dataproc.worker) no seu projeto
Editor do Dataproc (roles/dataproc.editor) no cluster para a autorização dataproc.clusters.use

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Estas funções predefinidas contêm as autorizações necessárias para executar um ficheiro de bloco de notas num cluster Serverless para Apache Spark. Para ver as autorizações exatas que são necessárias, expanda a secção Autorizações necessárias:

Autorizações necessárias

São necessárias as seguintes autorizações para executar um ficheiro do bloco de notas num cluster Serverless para Apache Spark:

dataproc.agents.create
dataproc.agents.delete
dataproc.agents.get
dataproc.agents.update
dataproc.tasks.lease
dataproc.tasks.listInvalidatedLeases
dataproc.tasks.reportStatus
dataproc.clusters.use

O administrador também pode atribuir estas autorizações à conta de serviço com funções personalizadas ou outras funções predefinidas.

Crie um cluster do Dataproc

Para executar o ficheiro de bloco de notas de uma instância de blocos de notas geridos num cluster do Dataproc, o cluster tem de cumprir os seguintes critérios:

O gateway de componentes do cluster tem de estar ativado.
O cluster tem de ter o componente Jupyter.
O cluster tem de estar na mesma região que a instância dos blocos de notas geridos.

Para criar o cluster do Dataproc, introduza o seguinte comando no Cloud Shell ou noutro ambiente onde a Google Cloud CLI está instalada.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

Substitua o seguinte:

REGION: a Google Cloud localização da instância dos notebooks geridos
CLUSTER_NAME: o nome do seu novo cluster

Após alguns minutos, o cluster do Dataproc está disponível para utilização. Saiba como criar clusters do Dataproc.

Abra o JupyterLab

Se ainda não o fez, crie uma instância de blocos de notas geridos na mesma região onde se encontra o cluster do Dataproc.
Na Google Cloud consola, aceda à página Blocos de notas geridos.

Aceda a notebooks geridos
Junto ao nome da instância de blocos de notas geridos, clique em Abrir JupyterLab.

Execute um ficheiro de bloco de notas no cluster do Dataproc

Pode executar um ficheiro de bloco de notas no cluster do Dataproc a partir de qualquer instância de blocos de notas geridos no mesmo projeto e região.

Execute um novo ficheiro de notebook

Na interface do JupyterLab da instância de notebooks geridos, selecione Ficheiro > Novo > Notebook.
Os kernels disponíveis do cluster do Dataproc aparecem no menu Selecionar kernel. Selecione o kernel que quer usar e, de seguida, clique em Selecionar.

O novo ficheiro do bloco de notas é aberto.
Adicione código ao novo ficheiro de notebook e execute o código.

Para alterar o kernel que quer usar depois de criar o ficheiro do bloco de notas, consulte a secção seguinte.

Execute um ficheiro de notebook existente

Na interface do JupyterLab da instância de blocos de notas geridos, clique no botão Explorador de ficheiros, navegue para o ficheiro de bloco de notas que quer executar e abra-o.
Para abrir a caixa de diálogo Selecionar kernel, clique no nome do kernel do ficheiro do bloco de notas, por exemplo: Python (Local).
Para selecionar um kernel do seu cluster do Dataproc, selecione um nome de kernel que inclua o nome do cluster no final. Por exemplo, um kernel do PySpark num cluster do Dataproc com o nome mycluster tem o nome PySpark on mycluster.
Clique em Selecionar para fechar a caixa de diálogo.

Agora, pode executar o código do ficheiro de bloco de notas no cluster do Dataproc.

O que se segue?

Saiba mais acerca do Dataproc.