Crea un clúster de Dataproc mediante gcloud CLI

En esta página se muestra cómo usar la herramienta de línea de comandos gcloud de Google Cloud CLI para crear un clúster de Dataproc, ejecutar una tarea de Apache Spark en el clúster y, a continuación, modificar el número de trabajadores del clúster.

.

Puedes consultar cómo realizar las mismas tareas o tareas similares en las guías de inicio rápido con el Explorador de APIs, en la consola de Crear un clúster de Dataproc mediante la consola y en Crear un clúster de Dataproc mediante bibliotecas de cliente. Google Cloud Google Cloud

Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Crear un clúster

    Para crear un clúster llamado example-cluster, ejecuta el siguiente comando:

    gcloud dataproc clusters create example-cluster --region=REGION
    

    El resultado del comando confirma la creación del clúster:

    Waiting for cluster creation operation...done.
    Created [... example-cluster]
    

    Para obtener información sobre cómo seleccionar una región, consulta Regiones y zonas disponibles. Para ver una lista de las regiones disponibles, puedes ejecutar el comando gcloud compute regions list. Para obtener información sobre los puntos finales regionales, consulte Puntos finales regionales.

    Enviar una tarea

    Para enviar una tarea de Spark de ejemplo que calcule un valor aproximado de pi, ejecuta el siguiente comando:

    gcloud dataproc jobs submit spark --cluster example-cluster \
        --region=REGION \
        --class org.apache.spark.examples.SparkPi \
        --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
    

    Este comando especifica lo siguiente:

    • Quieres ejecutar un trabajo spark en el clúster example-cluster de la región especificada
    • El class que contiene el método principal de la aplicación de cálculo de pi del trabajo
    • Ubicación del archivo JAR que contiene el código de tu trabajo
    • Los parámetros que quieras transferir a la tarea (en este caso, el número de tareas, que es 1000

    El trabajo se está ejecutando y el resultado final se muestra en la ventana de la terminal:

    Waiting for job output...
    ...
    Pi is roughly 3.14118528
    ...
    Job finished successfully.
    

    Actualizar un clúster

    Para cambiar el número de trabajadores del clúster a cinco, ejecuta el siguiente comando:

    gcloud dataproc clusters update example-cluster \
        --region=REGION \
        --num-workers 5
    

    El resultado del comando muestra los detalles de tu clúster. Por ejemplo:

    workerConfig:
    ...
      instanceNames:
      - example-cluster-w-0
      - example-cluster-w-1
      - example-cluster-w-2
      - example-cluster-w-3
      - example-cluster-w-4
      numInstances: 5
    statusHistory:
    ...
    - detail: Add 3 workers.
    

    Para reducir el número de nodos de trabajador al valor original, usa el mismo comando:

    gcloud dataproc clusters update example-cluster \
        --region=REGION \
        --num-workers 2
    

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    1. Para eliminar tu example-cluster, ejecuta el comando clusters delete:

      gcloud dataproc clusters delete example-cluster \
          --region=REGION
      

    2. Para confirmar y completar la eliminación del clúster, pulsa y y, a continuación, Intro cuando se te pida.

    Siguientes pasos