Guía de inicio rápido de Explorador de API: envía un trabajo de Spark

En esta página, se muestra cómo usar una plantilla intercalada del Explorador de API de Google para ejecutar un trabajo simple de Spark en un clúster existente de Cloud Dataproc. Puedes aprender a realizar la misma tarea con Google Cloud Platform Console en la Guía de inicio rápido del uso de Console o con la herramienta de línea de comandos en Guía de inicio rápido del uso de la herramienta de línea de comandos de gcloud.

Antes de comenzar

Antes de poder ejecutar un trabajo de Cloud Dataproc, tienes que crear un clúster de máquinas virtuales (VM) para ejecutarlo allí. Puedes usar el Explorador de API, Google Cloud Platform Console o la herramienta de línea de comandos de gcloud del SDK de Cloud para crear un clúster.

Envía un trabajo

Si quieres enviar un trabajo de muestra de Apache Spark que calcula un valor aproximado para pi, completa y ejecuta la plantilla del Explorador de API debajo, de la forma siguiente:

  1. Ingresa el ID del proyecto (nombre del proyecto) en el campo projectID.
  2. Los siguientes campos se completan por ti:
    1. region = una “global”. global es la región predeterminada cuando se crea un clúster de Cloud Dataproc. Este es un espacio de nombres especial para varias regiones capaz de implementar instancias en todo Compute Engine de forma global cuando se crea un clúster de Cloud Dataproc. Si creaste tu clúster (consulta Explorador de API: crea un clúster) en una región diferente, reemplaza “global” con el nombre de la región de tu clúster.
    2. Cuerpo de la solicitud job.placement.clusterName = “example-cluster”. Este es el nombre del clúster de Cloud Dataproc (creado con las guías de inicio rápido anteriores; consulta Explorador de API: crea un clúster) donde se ejecutará el trabajo. Reemplaza este nombre con el de tu clúster si es diferente.
    3. Cuerpo de la solicitud job.sparkJob:
      1. args = “1,000”. El número de tareas.
      2. jarFileUris = “file:///usr/lib/spark/examples/jars/spark-examples.jar”. La ubicación del archivo jar instalado con anterioridad en la instancia de VM principal en tu clúster que contiene el código del trabajo de Spark Scala.
      3. mainClass = “org.apache.spark.examples.SparkPi”. El método principal para la aplicación Scala de cálculo de pi del trabajo.
  3. Haz clic en EJECUTAR. Un cuadro de diálogo te pedirá que confirmes el alcance https://www.googleapis.com/auth/cloud-platform predeterminado. Haz clic en el botón PERMITIR del cuadro de diálogo para enviar la solicitud al servicio. Después de menos de un segundo (por lo general), la respuesta JSON que muestra que example-cluster está pendiente aparece debajo de la plantilla.

Puedes inspeccionar el resultado del trabajo en GCP Console: clústeres. Después, haz clic en el vínculo del ID de trabajo (selecciona la casilla “Ajuste de línea” para ver las líneas que exceden el margen derecho).

¡Felicitaciones! Usaste el Explorador de API de Google para enviar un trabajo de Apache Spark a un clúster de Cloud Dataproc.

Pasos siguientes

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Dataproc
¿Necesitas ayuda? Visita nuestra página de asistencia.