Guía de inicio rápido

En esta página, se muestra cómo usar Google Cloud Console para crear un clúster de Dataproc, ejecutar un trabajo simple de Apache Spark en el clúster y modificar la cantidad de trabajadores del clúster.

Puedes descubrir cómo realizar las mismas tareas con Guías de inicio rápido sobre cómo usar el Explorador de API y Guías de inicio rápido sobre cómo usar la herramienta de línea de comandos de gcloud

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En GCP Console, en la página de selección de proyecto, selecciona o crea un proyecto de GCP.

    Ir a la página de selección de proyecto

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita lasDataprocAPI.

    Habilita lasAPI

Cree un clúster

  1. Ve a la página de Cloud Console Clústeres de Cloud Dataproc.
  2. Haz clic en Crear clúster.
  3. Ingrese example-cluster en el campo de Nombre
  4. Selecciona una región y una zona para el clúster de los menús desplegables Región y Zona. Puedes seleccionar una región distinta, como us-east1 o europe-west1, para aislar los recursos (incluidas las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que usa Dataproc dentro de la región especificada. Si seleccionas una región distinta, puedes seleccionar "Sin preferencia" para que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Posición de zona automática de Dataproc). También puede seleccionar una región global, que es un extremo especial multirregional capaz de implementar instancias en cualquier zona de Compute Engine especificada por el usuario (al seleccionar una región global, debe seleccionar una zona). Consulta Extremos regionales para obtener más información sobre la diferencia entre los extremos globales y regionales. Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región. También puedes ejecutar el comando gcloud compute regions list para ver una lista de regiones disponibles.
  5. Usa los valores predeterminados para todas las demás opciones.

  6. Haz clic en Create (Crear) para generar el clúster.

El clúster nuevo debe aparecer en la lista de clústeres. El estado del clúster aparece como "Provisioning" (Aprovisionándose) hasta que esté listo para usarse y después cambia a "Running" (En ejecución).

Envíe un trabajo

Haz lo siguiente para ejecutar un trabajo de Spark de muestra:

  1. Selecciona Jobs (Trabajos) en el menú de navegación izquierdo para cambiar a la vista de trabajos de Dataproc.
  2. Haz clic en Submit job (Enviar trabajo).
  3. Selecciona tu clúster nuevo example-cluster del menú desplegable Cluster (Clúster).
  4. Selecciona Spark del menú desplegable Job type (Tipo de trabajo).
  5. Ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar en el campo JAR.
  6. Ingresa org.apache.spark.examples.SparkPi en el campo Clase principal o jar.
  7. Ingresa 1000 en el campo Arguments (Argumentos) para configurar el número de tareas.
  1. Haga clic en Enviar.

Tu trabajo debería aparecer en la lista de Jobs (Trabajos), que muestra los trabajos de su proyecto con el clúster, el tipo y el estado actual. El estado del trabajo aparece como "Running" (En ejecución) y cambia a "Succeeded" (Finalizado con éxito) cuando se completa. Realice lo siguiente para ver el resultado del trabajo finalizado:

  1. Haz clic en el ID de trabajo, en la lista de Jobs (Trabajos).
  2. Selecciona Line Wrapping (Ajuste de línea) para evitar el desplazamiento.

Debes ver que tu trabajo calculó un valor aproximado de pi correctamente.

Actualiza un clúster

Siga estos pasos para cambiar la cantidad de instancias de trabajadores de su clúster:

  1. En el panel de navegación izquierdo, seleccione Clusters (Clústeres) para regresar a la vista de clústeres de Cloud Dataproc.
  2. Haga clic en example-cluster en la lista de Clusters. De forma predeterminada, la página muestra una descripción general del uso de CPU de su clúster.
  3. Haz clic en Configuration (Configuración) para mostrar la configuración actual de tu clúster.
  4. Haga clic en Editar. Ahora, puedes editar la cantidad de nodos trabajadores.
  5. Ingrese 5 en el campo Nodos trabajadores.
  6. Haga clic en Save.

Su clúster ya se actualizó. Sigue el mismo procedimiento para disminuir la cantidad de nodos trabajadores al valor original.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. En la página Clúster de example-cluster, haz clic en Borrar para borrar el clúster. Se te solicitará que confirmes si deseas borrar el clúster. Haz clic en Aceptar.
  2. También debes quitar cualquier depósito de Cloud Storage que el clúster haya creado mediante el siguiente comando:
        gsutil rm gs://bucket/subdir/**
        

Qué sigue