Execute uma instância de notebooks geridos num cluster do Dataproc

Esta página mostra como executar o ficheiro de bloco de notas de uma instância de blocos de notas geridos num cluster do Dataproc.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks and Dataproc APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Notebooks and Dataproc APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Se ainda não o fez, crie uma instância de blocos de notas geridos.
  9. Funções necessárias

    Para garantir que a conta de serviço tem as autorizações necessárias para executar um ficheiro de bloco de notas num cluster Serverless para Apache Spark, peça ao seu administrador para conceder à conta de serviço as seguintes funções do IAM:

    Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

    Estas funções predefinidas contêm as autorizações necessárias para executar um ficheiro de bloco de notas num cluster Serverless para Apache Spark. Para ver as autorizações exatas que são necessárias, expanda a secção Autorizações necessárias:

    Autorizações necessárias

    São necessárias as seguintes autorizações para executar um ficheiro do bloco de notas num cluster Serverless para Apache Spark:

    • dataproc.agents.create
    • dataproc.agents.delete
    • dataproc.agents.get
    • dataproc.agents.update
    • dataproc.tasks.lease
    • dataproc.tasks.listInvalidatedLeases
    • dataproc.tasks.reportStatus
    • dataproc.clusters.use

    O administrador também pode atribuir estas autorizações à conta de serviço com funções personalizadas ou outras funções predefinidas.

    Crie um cluster do Dataproc

    Para executar o ficheiro de bloco de notas de uma instância de blocos de notas geridos num cluster do Dataproc, o cluster tem de cumprir os seguintes critérios:

    • O gateway de componentes do cluster tem de estar ativado.

    • O cluster tem de ter o componente Jupyter.

    • O cluster tem de estar na mesma região que a instância dos blocos de notas geridos.

    Para criar o cluster do Dataproc, introduza o seguinte comando no Cloud Shell ou noutro ambiente onde a Google Cloud CLI está instalada.

    gcloud dataproc clusters create CLUSTER_NAME\
        --region=REGION \
        --enable-component-gateway \
        --optional-components=JUPYTER

    Substitua o seguinte:

    • REGION: a Google Cloud localização da instância dos notebooks geridos

    • CLUSTER_NAME: o nome do seu novo cluster

    Após alguns minutos, o cluster do Dataproc está disponível para utilização. Saiba como criar clusters do Dataproc.

    Abra o JupyterLab

    1. Se ainda não o fez, crie uma instância de blocos de notas geridos na mesma região onde se encontra o cluster do Dataproc.

    2. Na Google Cloud consola, aceda à página Blocos de notas geridos.

      Aceda a notebooks geridos

    3. Junto ao nome da instância de blocos de notas geridos, clique em Abrir JupyterLab.

    Execute um ficheiro de bloco de notas no cluster do Dataproc

    Pode executar um ficheiro de bloco de notas no cluster do Dataproc a partir de qualquer instância de blocos de notas geridos no mesmo projeto e região.

    Execute um novo ficheiro de notebook

    1. Na interface do JupyterLab da instância de notebooks geridos, selecione Ficheiro > Novo > Notebook.

    2. Os kernels disponíveis do cluster do Dataproc aparecem no menu Selecionar kernel. Selecione o kernel que quer usar e, de seguida, clique em Selecionar.

      O novo ficheiro do bloco de notas é aberto.

    3. Adicione código ao novo ficheiro de notebook e execute o código.

    Para alterar o kernel que quer usar depois de criar o ficheiro do bloco de notas, consulte a secção seguinte.

    Execute um ficheiro de notebook existente

    1. Na interface do JupyterLab da instância de blocos de notas geridos, clique no botão  Explorador de ficheiros, navegue para o ficheiro de bloco de notas que quer executar e abra-o.

    2. Para abrir a caixa de diálogo Selecionar kernel, clique no nome do kernel do ficheiro do bloco de notas, por exemplo: Python (Local).

    3. Para selecionar um kernel do seu cluster do Dataproc, selecione um nome de kernel que inclua o nome do cluster no final. Por exemplo, um kernel do PySpark num cluster do Dataproc com o nome mycluster tem o nome PySpark on mycluster.

    4. Clique em Selecionar para fechar a caixa de diálogo.

      Agora, pode executar o código do ficheiro de bloco de notas no cluster do Dataproc.

    O que se segue?