Crie um cluster do Dataproc com a CLI gcloud

Esta página mostra-lhe como usar a ferramenta de linha de comandos gcloud da CLI do Google Cloud para criar um cluster do Dataproc, executar uma tarefa do Apache Spark no cluster e, em seguida, modificar o número de trabalhadores no cluster.

.

Pode saber como realizar tarefas semelhantes ou iguais com os Inícios rápidos com o API Explorer, a Google Cloud consola em Crie um cluster do Dataproc com a Google Cloud consola, e usando as bibliotecas cliente em Crie um cluster do Dataproc com bibliotecas cliente.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Crie um cluster

    Para criar um cluster denominado example-cluster, execute o seguinte comando:

    gcloud dataproc clusters create example-cluster --region=REGION
    

    O resultado do comando confirma a criação do cluster:

    Waiting for cluster creation operation...done.
    Created [... example-cluster]
    

    Para obter informações sobre como selecionar uma região, consulte o artigo Regiões e zonas disponíveis. Para ver uma lista das regiões disponíveis, pode executar o comando gcloud compute regions list. Para saber mais sobre os pontos finais regionais, consulte o artigo Pontos finais regionais.

    Envie um trabalho

    Para enviar uma tarefa de exemplo do Spark que calcule um valor aproximado para pi, execute o seguinte comando:

    gcloud dataproc jobs submit spark --cluster example-cluster \
        --region=REGION \
        --class org.apache.spark.examples.SparkPi \
        --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
    

    Este comando especifica o seguinte:

    • Quer executar uma tarefa spark no cluster example-cluster na região especificada
    • O class que contém o método principal para a aplicação de cálculo de pi do trabalho
    • A localização do ficheiro JAR que contém o código do seu trabalho
    • Quaisquer parâmetros que queira transmitir à tarefa, neste caso, o número de tarefas, que é 1000

    A tarefa está em execução e o resultado final é apresentado na janela de terminal:

    Waiting for job output...
    ...
    Pi is roughly 3.14118528
    ...
    Job finished successfully.
    

    Atualize um cluster

    Para alterar o número de trabalhadores no cluster para cinco, execute o seguinte comando:

    gcloud dataproc clusters update example-cluster \
        --region=REGION \
        --num-workers 5
    

    O resultado do comando apresenta os detalhes do cluster. Por exemplo:

    workerConfig:
    ...
      instanceNames:
      - example-cluster-w-0
      - example-cluster-w-1
      - example-cluster-w-2
      - example-cluster-w-3
      - example-cluster-w-4
      numInstances: 5
    statusHistory:
    ...
    - detail: Add 3 workers.
    

    Para diminuir o número de nós de trabalho para o valor original, use o mesmo comando:

    gcloud dataproc clusters update example-cluster \
        --region=REGION \
        --num-workers 2
    

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    1. Para eliminar o example-cluster, execute o comando clusters delete:

      gcloud dataproc clusters delete example-cluster \
          --region=REGION
      

    2. Para confirmar e concluir a eliminação do cluster, prima y e, de seguida, prima Enter quando lhe for pedido.

    O que se segue?